Исследователи проанализировали ограничения алгоритма оптимизации AdamW, который является стандартом при обучении современных больших языковых моделей. Основная проблема заключается в том, что теоретическое обоснование работы AdamW опирается на предположение о конечности дисперсии градиентного шума. Однако эмпирические данные показывают, что при предварительном обучении LLM распределение шума чаще обладает «тяжелыми хвостами», что ставит под сомнение оптимальность классического подхода.
В работе сопоставляются показатели AdamW с альтернативными методами, такими как Lion и Muon. Эти алгоритмы, основанные на знаковых обновлениях, демонстрируют более высокую устойчивость и эффективность в условиях, когда шум градиентов не подчиняется стандартным статистическим распределениям. Авторы подчеркивают, что текущая теоретическая база не успевает за практикой обучения моделей на огромных массивах данных, где нестабильность градиентов становится нормой.
Данное исследование открывает дискуссию о необходимости пересмотра методов оптимизации для следующего поколения архитектур. Понимание того, как именно тяжелые хвосты шума влияют на сходимость и итоговое качество моделей, позволит создавать более стабильные алгоритмы обучения, способные эффективно работать с непредсказуемыми данными без потери точности.