arXiv · 25.06.2026 ·Машинное обучение

DMuon: масштабируемое распределенное обучение с оптимизатором Muon

Исследователи представили DMuon — метод распределенного обучения, адаптирующий оптимизатор Muon для работы в крупномасштабных кластерах. Решение устраняет вычислительные задержки, характерные для матрично-ортогональных методов, обеспечивая производительность, сопоставимую с классическим алгоритмом Adam. Это позволяет эффективно обучать современные глубокие нейронные сети, сохраняя высокую скорость сходимости при значительном увеличении количества параметров и сложности архитектур.

Оптимизаторы на основе матричной ортогонализации, такие как Muon, показывают превосходные результаты в задачах глубокого обучения, однако их внедрение в распределенные системы традиционно осложнялось высокими накладными расходами на коммуникацию и вычисления. Авторы DMuon разработали специализированный протокол синхронизации, который минимизирует влияние этих факторов на общую пропускную способность системы.

Метод позволяет применять преимущества матрично-ориентированных обновлений весов в условиях многоузлового обучения, где критически важна минимизация задержек при обмене градиентами. Технология открывает путь к более эффективному использованию вычислительных ресурсов при тренировке моделей с миллиардами параметров, где стандартные поэлементные оптимизаторы начинают терять в эффективности сходимости.

Ключевые факты

DMuon обеспечивает вычислительные затраты, близкие к уровню оптимизатора Adam, сохраняя при этом преимущества матричной ортогонализации.
Метод оптимизирует процесс распределенного обучения, решая проблему масштабируемости матричных обновлений в кластерах.
Подход демонстрирует высокую эффективность на современных архитектурах глубокого обучения, склонных к росту гетерогенности и масштаба.
Разработка направлена на снижение барьеров при внедрении продвинутых методов оптимизации в крупномасштабные пайплайны обучения моделей.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы