Исследователи представили новый математический анализ архитектур Sparse Mixture-of-Experts (SMoE), которые лежат в основе большинства современных больших языковых и мультимодальных моделей. Основная проблема таких систем заключается в механизме маршрутизации Top-k, который динамически выбирает активные нейронные сети для обработки конкретного токена. Этот процесс делает функцию преобразования данных в модели математически разрывной.
В работе доказывается, что вблизи поверхностей разрыва даже минимальные изменения входных данных могут приводить к резким скачкам в выходных значениях модели. Это создает серьезные препятствия для стабильного обучения и предсказуемости поведения нейросетей. Авторы статьи применили методы геометрического и стохастического анализа, чтобы описать природу этих нестабильностей и их влияние на градиентный спуск.
Результаты исследования объясняют, почему обучение моделей с разреженными экспертами часто требует специфических методов регуляризации и тщательной настройки гиперпараметров маршрутизации. Понимание геометрии этих разрывов позволяет разработчикам более эффективно проектировать функции потерь и алгоритмы балансировки нагрузки между экспертами, что критически важно для масштабирования моделей до сотен миллиардов параметров без потери точности и стабильности.