arXiv · 17.06.2026 ·Исследования и наука

Геометрический анализ разрывов в архитектурах Sparse Mixture-of-Experts

Исследователи представили новый математический анализ архитектур Sparse Mixture-of-Experts (SMoE), которые лежат в основе большинства современных больших языковых и мультимодальных моделей. Основная проблема таких систем заключается в механизме маршрутизации Top-k, который динамически выбирает активные нейронные сети для обработки конкретного токена. Этот процесс делает функцию преобразования данных в модели математически разрывной.

В работе доказывается, что вблизи поверхностей разрыва даже минимальные изменения входных данных могут приводить к резким скачкам в выходных значениях модели. Это создает серьезные препятствия для стабильного обучения и предсказуемости поведения нейросетей. Авторы статьи применили методы геометрического и стохастического анализа, чтобы описать природу этих нестабильностей и их влияние на градиентный спуск.

Результаты исследования объясняют, почему обучение моделей с разреженными экспертами часто требует специфических методов регуляризации и тщательной настройки гиперпараметров маршрутизации. Понимание геометрии этих разрывов позволяет разработчикам более эффективно проектировать функции потерь и алгоритмы балансировки нагрузки между экспертами, что критически важно для масштабирования моделей до сотен миллиардов параметров без потери точности и стабильности.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Машинное обучение PuzzleMoE: новый метод сжатия моделей Mixture-of-Experts Исследователи представили PuzzleMoE — метод эффективного сжатия моделей с архитектурой Mixture-of-Experts (MoE). Технология позволяет значительно сократить количество параметров и вычислительные затраты при сохранении высокой точности нейросети. Подход оптимизирует структуру экспертов, делая крупные языковые модели более доступными для развертывания на ограниченных аппаратных ресурсах без существенной потери качества генерации. arXiv · Модели и релизы Как оптимально обрезать экспертов в моделях MoE Исследователи предложили унифицированный подход к обрезке экспертов в моделях Mixture-of-Experts (MoE), что может существенно снизить память и вычислительные затраты при развёртывании таких моделей. В статье, опубликованной на arXiv, авторы отмечают, что хотя MoE-модели эффективно распределяют вычисления между экспертами, их развёртывание всё равно требует хранения полного пула экспертов. Это создаёт проблемы с памятью, особенно при использовании в агентных системах, где важна эффективность инференса. arXiv · Исследования и наука Новый метод анализа эффективности роутинга в MoE-моделях Исследователи представили Expert Subspace Separation Index (ESSI) — метрику для оценки качества маршрутизации токенов в разреженных моделях Mixture-of-Experts (MoE). Метод позволяет разделить влияние когерентности маршрутов, качества экспертов и их взаимодействия с контекстом, опровергая упрощенное представление о том, что эффективность MoE зависит исключительно от геометрической комплементарности векторов представления экспертов. arXiv · Машинное обучение Калибровка моделей Mixture-of-Experts при сдвиге распределения данных Исследователи представили новый подход к калибровке архитектур Mixture-of-Experts (MoE), направленный на повышение надежности вероятностных прогнозов моделей. Проблема калибровки заключается в том, чтобы предсказанная моделью уверенность соответствовала реальной частоте правильных ответов. В условиях, когда данные на этапе эксплуатации отличаются от обучающей выборки — так называемый сдвиг распределения — точность и доверие к выходным вероятностям нейросетей часто снижаются. arXiv · Исследования и наука Исследование геометрии решений в невыпуклых нейронных сетях Исследователи проанализировали влияние геометрии пространства решений на процесс оптимизации в невыпуклых нейронных сетях. Работа показывает, что алгоритмы эффективно находят широкие и плоские области минимумов, даже если они встречаются редко, в то время как узкие, изолированные кластеры решений остаются практически недоступными. Это объясняет фундаментальные трудности при обучении сложных моделей и выборе оптимальных весов. arXiv · Модели и релизы Новый метод SoftMoE для эффективного масштабирования LLM Исследователи предложили новый подход SoftMoE для улучшения работы архитектур Mixture-of-Experts (MoE) в языковых моделях. Традиционные MoE используют top-k маршрутизацию, которая активирует только часть экспертов, но из-за недифференцируемости этого оператора число активных экспертов фиксировано, что приводит к неэффективному использованию вычислительных ресурсов. arXiv · Машинное обучение Исследование методов оптимизации SAM и Muon для повышения устойчивости моделей Исследователи проанализировали эффективность алгоритмов Sharpness-Aware Minimization (SAM) и оптимизатора Muon, сосредоточившись на их устойчивости к возмущениям параметров. Работа выявляет критическую зависимость качества обобщения моделей от геометрических свойств пространства весов. Авторы доказывают, что выбор метрики для оценки «малых» возмущений напрямую влияет на итоговую производительность нейросетей, предлагая новые подходы к настройке этих методов в процессе обучения. arXiv · Инфраструктура для агентов FoMoE: новый подход к обучению MoE-моделей через федерацию экспертов Исследователи представили архитектуру FoMoE (Federation of Mixture-of-Experts), которая решает проблему жесткой привязки параметров модели к вычислительной инфраструктуре. Традиционные методы обучения крупных языковых моделей требуют использования массивов тесно связанных ускорителей, что ограничивает масштабируемость. Новый подход позволяет распределять экспертов в составе MoE-архитектуры между независимыми вычислительными узлами, снимая барьер «полной репликации» весов модели на каждом устройстве. Hacker News · Исследования и наука Анализ гипотезы разреженности loss-band в архитектуре Scientist AI Исследователи проанализировали гипотезу разреженности полос потерь (loss-band sparsity) в системе Scientist AI, изучающей автоматизированное научное открытие. Работа ставит под сомнение предположение о том, что значимые изменения в поведении модели концентрируются в узких диапазонах функции потерь, предлагая более глубокий взгляд на динамику обучения и оптимизации сложных агентных систем в научной среде. arXiv · Исследования и наука Исследование интерпретируемости LLM через разреженные автокодировщики Исследователи проанализировали ограничения использования разреженных автокодировщиков (SAE) для интерпретации нейросетей. Выяснилось, что текущие методы часто не учитывают разрыв между активацией признаков и их реальным влиянием на поведение модели. Авторы работы предложили новый подход к анализу геометрии признаков, который позволяет точнее предсказывать причинно-следственные эффекты и улучшить управление генерацией текста через манипуляцию внутренними представлениями.

← Все материалы