arXiv · 22.06.2026 ·Машинное обучение

Новый взгляд на оптимизатор Muown для обучения трансформеров

Исследователи проанализировали математические принципы работы оптимизатора Muown, который активно применяется для предварительного обучения трансформеров. Этот метод разделяет весовые матрицы на два компонента: амплитуды строк и ненормализованное направление. Для обновления амплитуд используется алгоритм Adam, а для направления — оптимизатор Muon. Такая архитектура позволяет эффективно управлять процессом обучения, обеспечивая высокую стабильность и скорость сходимости моделей.

В ходе работы было доказано, что направленное обновление в Muown математически эквивалентно риманову шагу по нормализованному многообразию. Фактически, алгоритм неявно выполняет затухание углового шага, что критически важно для настройки весов в глубоких нейронных сетях. Этот механизм позволяет оптимизатору автоматически адаптироваться к геометрии пространства параметров, что дает преимущество перед стандартными методами оптимизации при работе с большими языковыми моделями.

Результаты исследования объясняют, почему матрично-ориентированные оптимизаторы показывают столь высокие эмпирические результаты. Понимание того, как именно происходит затухание шага, открывает возможности для дальнейшей оптимизации процессов обучения и создания более эффективных алгоритмов для работы с архитектурами трансформеров. Это знание помогает инженерам точнее настраивать гиперпараметры и добиваться лучших показателей производительности при меньших вычислительных затратах.

Источник: arXiv

Похожие материалы

NVIDIA Technical Blog · Машинное обучение Как оптимизировать трансформеры для обучения с низкой точностью Трансформеры лежат в основе многих современных языковых и генеративных моделей. С ростом их размера увеличивается и потребление вычислительных ресурсов, особенно GPU. NVIDIA предложила методы оптимизации для обучения моделей с низкой точностью, что позволяет снизить нагрузку на оборудование. arXiv · Машинное обучение Новый метод прунинга для оптимизации Transformer-моделей Исследователи представили метод Complementary Attention Head Pruning (CAHP), направленный на повышение эффективности архитектуры Transformer. Основная проблема современных LLM заключается в избыточном количестве параметров, что затрудняет их развертывание на устройствах с ограниченными вычислительными ресурсами. Существующие подходы к сжатию моделей часто опираются на градиентный анализ важности весов или стохастическое гейтирование, которые не всегда обеспечивают оптимальный баланс между скоростью работы и качеством генерации. arXiv · Машинное обучение Трансформеры для решения уравнений на сложных геометриях Исследователи из MIT и других ведущих университетов представили новый подход к использованию трансформеров для решения задач, связанных с дифференциальными уравнениями на сложных геометриях. Традиционные методы, основанные на нейронных операторах, ограничены фиксированным размером области, что затрудняет их применение в реальных сценариях, где размеры могут варьироваться. Hacker News · Машинное обучение Новый подход к законам масштабирования может изменить обучение ИИ-моделей Исследователи из Стэнфордского университета предложили новый подход к законам масштабирования, который может существенно повлиять на процесс обучения искусственных нейронных сетей. Традиционные законы масштабирования описывают, как увеличение размера модели и объёма данных влияет на её производительность. Однако новый метод позволяет более точно предсказывать, как изменения в архитектуре модели и данных повлияют на её точность и эффективность. arXiv · Машинное обучение Новый метод масштабируемого слияния предобученных трансформеров Исследователи представили фреймворк, позволяющий эффективно объединять веса независимо обученных нейронных сетей через линейную связность мод (Linear Mode Connectivity, LMC). Ранее подобные методы были ограничены в масштабируемости, так как оптимизация пути интерполяции проводилась только от одной конечной точки модели. Новый подход снимает эти ограничения, позволяя применять слияние к крупным предобученным трансформерам с миллиардами параметров. arXiv · Исследования и наука Эффективность AdamW при обучении моделей с тяжелыми хвостами шума Исследователи проанализировали ограничения алгоритма оптимизации AdamW, который является стандартом при обучении современных больших языковых моделей. Основная проблема заключается в том, что теоретическое обоснование работы AdamW опирается на предположение о конечности дисперсии градиентного шума. Однако эмпирические данные показывают, что при предварительном обучении LLM распределение шума чаще обладает «тяжелыми хвостами», что ставит под сомнение оптимальность классического подхода. arXiv · Машинное обучение Исследование: неравномерное распределение параметров в трансформерах Учёные изучили эффективность неравномерного распределения параметров в трансформерах. Обычно архитектуры трансформеров используют одинаковую ширину во всех слоях, что приводит к равномерному распределению вычислительных ресурсов. Однако новые исследования показывают, что разные слои могут выполнять разные роли, и их вычислительные потребности могут отличаться. arXiv · Машинное обучение Исследование: устойчивые и адаптивные трансформеры с фиксированной точкой Учёные предложили новый подход к трансформерам с циклической архитектурой, который решает проблему распространения сигнала на больших глубинах. В статье на arXiv представлены Fixed-Point Reasoners — модели, способные адаптироваться к сложным задачам, требующим составного рассуждения. arXiv · Машинное обучение Мультиагентные системы для многокритериальной оптимизации в динамических средах Исследователи представили новый подход к решению задач оптимизации в вычислительных и сетевых системах с помощью мультиагентных систем. Традиционные методы обучения с подкреплением часто сводят сложные задачи к минимизации единого скалярного вознаграждения, используя штрафные коэффициенты для учета ограничений. Однако такой подход оказывается недостаточно гибким в динамических условиях, где требования к производительности и затратам постоянно меняются. arXiv · Машинное обучение Оптимизация гиперпараметров в физически информированных нейросетях Исследователи представили новый подход к обучению физически информированных нейронных сетей (PINNs), предназначенных для решения дифференциальных уравнений в частных производных. Основная сложность таких моделей заключается в нестабильной сходимости и высокой чувствительности к выбору гиперпараметров, что вызвано невыпуклой структурой функции потерь, включающей множество физических ограничений.

← Все материалы