Новое исследование анализирует текущие законы масштабирования больших языковых моделей и указывает на их неустойчивость с точки зрения потребления энергетических ресурсов. Авторы доказывают, что даже при учете «эффекта пьедестала» — численного смещения, связанного с ненулевым значением функции потерь при бесконечном объеме данных, — проблема экспоненциального роста затрат на обучение и инференс моделей остается нерешенной.
Работа ставит под сомнение долгосрочную жизнеспособность текущего подхода к увеличению параметров моделей. Исследователи подчеркивают, что существующие показатели эффективности масштабирования не учитывают реальные физические ограничения инфраструктуры. Даже если скорректировать математические модели обучения с учетом предельных значений функции потерь, это не меняет фундаментальной картины: требования к вычислительным мощностям и электроэнергии продолжают расти быстрее, чем достигаемый прирост качества ответов.
Авторы призывают пересмотреть подходы к архитектуре нейросетей, так как текущая траектория развития требует колоссальных инвестиций в энергетику, которые могут оказаться экономически и экологически неоправданными. Статья предлагает критический взгляд на «гонку масштабирования», указывая на необходимость поиска более энергоэффективных методов обучения, которые не зависят исключительно от увеличения количества параметров и объема обучающих датасетов.
Ключевые факты
- Исследование ставит под сомнение устойчивость текущих законов масштабирования LLM из-за критического роста энергопотребления.
- «Эффект пьедестала» (учет ненулевого значения функции потерь при бесконечных данных) не решает проблему неустойчивости ресурсов.
- Текущие показатели масштабирования демонстрируют разрыв между вычислительными затратами и реальной эффективностью моделей.
- Работа указывает на необходимость перехода от экстенсивного роста параметров к поиску энергоэффективных архитектурных решений.