Исследователи проанализировали математические принципы работы оптимизатора Muown, который активно применяется для предварительного обучения трансформеров. Этот метод разделяет весовые матрицы на два компонента: амплитуды строк и ненормализованное направление. Для обновления амплитуд используется алгоритм Adam, а для направления — оптимизатор Muon. Такая архитектура позволяет эффективно управлять процессом обучения, обеспечивая высокую стабильность и скорость сходимости моделей.
В ходе работы было доказано, что направленное обновление в Muown математически эквивалентно риманову шагу по нормализованному многообразию. Фактически, алгоритм неявно выполняет затухание углового шага, что критически важно для настройки весов в глубоких нейронных сетях. Этот механизм позволяет оптимизатору автоматически адаптироваться к геометрии пространства параметров, что дает преимущество перед стандартными методами оптимизации при работе с большими языковыми моделями.
Результаты исследования объясняют, почему матрично-ориентированные оптимизаторы показывают столь высокие эмпирические результаты. Понимание того, как именно происходит затухание шага, открывает возможности для дальнейшей оптимизации процессов обучения и создания более эффективных алгоритмов для работы с архитектурами трансформеров. Это знание помогает инженерам точнее настраивать гиперпараметры и добиваться лучших показателей производительности при меньших вычислительных затратах.