Исследователи из Стэнфордского университета предложили новый подход к законам масштабирования, который может существенно повлиять на процесс обучения искусственных нейронных сетей. Традиционные законы масштабирования описывают, как увеличение размера модели и объёма данных влияет на её производительность. Однако новый метод позволяет более точно предсказывать, как изменения в архитектуре модели и данных повлияют на её точность и эффективность.
Согласно исследованию, новый подход учитывает не только количество параметров и объём данных, но и их качество, а также архитектурные особенности модели. Это позволяет оптимизировать процесс обучения, снижая затраты на вычисления и время обучения. Исследователи утверждают, что их метод может быть применён к различным типам моделей, включая трансформеры и рекуррентные нейронные сети.
Авторы работы отмечают, что их подход может быть особенно полезен для разработчиков, работающих с большими языковыми моделями. В будущем это может привести к созданию более мощных и эффективных ИИ-систем, которые требуют меньше ресурсов для обучения. Исследование было опубликовано в престижном журнале и вызвало широкий резонанс в научном сообществе.
Новый метод уже начал тестироваться несколькими ведущими компаниями в области искусственного интеллекта, включая Google и Microsoft. Представители этих компаний заявили, что результаты первых экспериментов выглядят обнадеживающими и могут быть использованы для оптимизации текущих моделей.