arXiv · 22.06.2026 ·Исследования и наука

Эффективность AdamW при обучении моделей с тяжелыми хвостами шума

Исследователи проанализировали ограничения алгоритма оптимизации AdamW, который является стандартом при обучении современных больших языковых моделей. Основная проблема заключается в том, что теоретическое обоснование работы AdamW опирается на предположение о конечности дисперсии градиентного шума. Однако эмпирические данные показывают, что при предварительном обучении LLM распределение шума чаще обладает «тяжелыми хвостами», что ставит под сомнение оптимальность классического подхода.

В работе сопоставляются показатели AdamW с альтернативными методами, такими как Lion и Muon. Эти алгоритмы, основанные на знаковых обновлениях, демонстрируют более высокую устойчивость и эффективность в условиях, когда шум градиентов не подчиняется стандартным статистическим распределениям. Авторы подчеркивают, что текущая теоретическая база не успевает за практикой обучения моделей на огромных массивах данных, где нестабильность градиентов становится нормой.

Данное исследование открывает дискуссию о необходимости пересмотра методов оптимизации для следующего поколения архитектур. Понимание того, как именно тяжелые хвосты шума влияют на сходимость и итоговое качество моделей, позволит создавать более стабильные алгоритмы обучения, способные эффективно работать с непредсказуемыми данными без потери точности.

Источник: arXiv

Похожие материалы

arXiv · Машинное обучение Новый взгляд на оптимизатор Muown для обучения трансформеров Исследователи проанализировали математические принципы работы оптимизатора Muown, который активно применяется для предварительного обучения трансформеров. Этот метод разделяет весовые матрицы на два компонента: амплитуды строк и ненормализованное направление. Для обновления амплитуд используется алгоритм Adam, а для направления — оптимизатор Muon. Такая архитектура позволяет эффективно управлять процессом обучения, обеспечивая высокую стабильность и скорость сходимости моделей. arXiv · Машинное обучение Повышение устойчивости диффузионных моделей к зашумленным данным Исследователи предложили новый метод обучения диффузионных моделей, который делает их более устойчивыми к загрязненным обучающим выборкам. Традиционный подход, основанный на минимизации среднеквадратичной ошибки (MSE), часто оказывается чувствительным к выбросам и некачественным данным, что снижает итоговое качество генерации контента. Hacker News · Исследования и наука Проблема эффективности обучения моделей на ограниченных данных Современные методы обучения больших языковых моделей сталкиваются с проблемой «черной дыры» в эффективности выборки. Исследования показывают, что текущие подходы требуют колоссальных объемов данных для достижения прироста качества, который непропорционален затраченным вычислительным мощностям. При этом значительная часть доступных в интернете текстов уже была использована для тренировки, что создает дефицит качественных обучающих материалов для будущих поколений нейросетей. arXiv · Оценка и бенчмарки Новый метод борьбы с предвзятостью LLM-судей при оценке качества ответов Исследователи представили новый подход к оценке больших языковых моделей, использующих другие LLM в качестве «судей». Текущие системы автоматической оценки часто страдают от систематических искажений, не связанных с качеством контента. Наиболее выраженной проблемой является «предвзятость к многословию»: модели склонны завышать оценки длинным ответам, даже если они менее точны или информативны, чем краткие варианты. arXiv · Исследования и наука Исследование методов отслеживания влияния обучающих данных на ответы LLM Исследователи проанализировали два ключевых подхода к интерпретации поведения больших языковых моделей: оценку сходства данных (data-similarity) и оценку влияния данных (data-influence). Первый метод основан на поиске семантической близости между запросом и обучающей выборкой, что требует значительно меньше вычислительных ресурсов. Второй метод направлен на определение того, как конкретные примеры из обучающего набора напрямую меняют веса модели и влияют на итоговый результат, что считается более точным, но трудоемким процессом. arXiv · Машинное обучение Новый метод дообучения моделей речи для специфичных задач Исследователи предложили новый подход к дообучению foundation-моделей речи, которые изначально обучаются на больших объёмах неразмеченных данных. Такие модели создают универсальные представления, полезные для разных задач, но при этом кодируют информацию о ключевых переменных речи распределённо. Это означает, что для конкретных задач требуется только часть этой информации. arXiv · Инференс и железо Как вычислительные ресурсы влияют на оценку крупных языковых моделей Исследование на arXiv показывает, что современные оценки ИИ переходят на более сложные задачи, требующие длительных траекторий с использованием инструментов и итеративного решения проблем. Это делает результаты всё более чувствительными к объёму и распределению вычислительных ресурсов во время инференса. arXiv · Исследования и наука Исследование факторов эффективности обучения с подкреплением для рассуждений LLM Исследователи проанализировали механизмы обучения с подкреплением на основе верифицируемых наград (RLVR), которые активно применяются для улучшения логических способностей больших языковых моделей. Несмотря на популярность метода, текущие подходы к его реализации часто опираются на эмпирические догадки, что приводит к разрозненным и порой противоречивым алгоритмическим решениям. Авторы работы систематизировали ключевые факторы, влияющие на стабильность и результативность процесса обучения. Lobsters · Машинное обучение Роль градиентного шума в обучении нейронных сетей Исследование механизмов градиентного шума раскрывает его фундаментальное влияние на процесс оптимизации нейронных сетей. В отличие от стандартных представлений о шуме как о помехе, современные подходы рассматривают его как инструмент, помогающий моделям преодолевать локальные минимумы в процессе обучения. Использование контролируемых возмущений позволяет алгоритмам градиентного спуска эффективнее исследовать ландшафт функции потерь, что способствует нахождению более устойчивых и обобщающих решений. arXiv · Машинное обучение Инициализация параметров влияет на способности LLM Исследователи из MIT и других университетов выяснили, что инициализация параметров в больших языковых моделях (LLM) играет ключевую роль в их обучении и конечных способностях. В статье, опубликованной на arXiv, авторы утверждают, что уменьшение масштаба инициализации параметров улучшает предобучение моделей.

← Все материалы