arXiv · 17.06.2026 ·Инфраструктура для агентов

FoMoE: новый подход к обучению MoE-моделей через федерацию экспертов

Исследователи представили архитектуру FoMoE (Federation of Mixture-of-Experts), которая решает проблему жесткой привязки параметров модели к вычислительной инфраструктуре. Традиционные методы обучения крупных языковых моделей требуют использования массивов тесно связанных ускорителей, что ограничивает масштабируемость. Новый подход позволяет распределять экспертов в составе MoE-архитектуры между независимыми вычислительными узлами, снимая барьер «полной репликации» весов модели на каждом устройстве.

Технология опирается на децентрализованное обучение, при котором экспертные блоки модели могут размещаться на различных кластерах, объединенных в федерацию. Это позволяет значительно снизить требования к пропускной способности сети между узлами, так как для обработки конкретного токена активируется лишь малая часть экспертов. В результате становится возможным обучение моделей с экстремально большим количеством параметров на распределенных мощностях, которые ранее были недоступны для подобных задач из-за ограничений по памяти и скорости передачи данных.

Данное решение меняет подход к построению инфраструктуры для обучения сверхкрупных моделей. Вместо создания единого монолитного кластера с высокой плотностью ускорителей, разработчики получают возможность использовать гетерогенные вычислительные ресурсы. Это открывает путь к более эффективному использованию существующих дата-центров и снижает порог входа для обучения моделей, сопоставимых по качеству с современными SOTA-решениями, но с меньшими затратами на сетевую инфраструктуру.

Источник: arXiv

Похожие материалы

arXiv · Модели и релизы Новый метод SoftMoE для эффективного масштабирования LLM Исследователи предложили новый подход SoftMoE для улучшения работы архитектур Mixture-of-Experts (MoE) в языковых моделях. Традиционные MoE используют top-k маршрутизацию, которая активирует только часть экспертов, но из-за недифференцируемости этого оператора число активных экспертов фиксировано, что приводит к неэффективному использованию вычислительных ресурсов. arXiv · Модели и релизы Как оптимально обрезать экспертов в моделях MoE Исследователи предложили унифицированный подход к обрезке экспертов в моделях Mixture-of-Experts (MoE), что может существенно снизить память и вычислительные затраты при развёртывании таких моделей. В статье, опубликованной на arXiv, авторы отмечают, что хотя MoE-модели эффективно распределяют вычисления между экспертами, их развёртывание всё равно требует хранения полного пула экспертов. Это создаёт проблемы с памятью, особенно при использовании в агентных системах, где важна эффективность инференса. NVIDIA Technical Blog · Модели и релизы Как NVIDIA ускорила обучение MoE-моделей на 30% NVIDIA представила новые методы оптимизации обучения Mixture-of-Experts (MoE) моделей, которые стали ключевым компонентом современных ИИ-систем. Исследователи компании разработали продвинутые ядра слияния (fusion kernels), которые позволяют значительно ускорить процесс обучения. arXiv · Исследования и наука Геометрический анализ разрывов в архитектурах Sparse Mixture-of-Experts Исследователи представили новый математический анализ архитектур Sparse Mixture-of-Experts (SMoE), которые лежат в основе большинства современных больших языковых и мультимодальных моделей. Основная проблема таких систем заключается в механизме маршрутизации Top-k, который динамически выбирает активные нейронные сети для обработки конкретного токена. Этот процесс делает функцию преобразования данных в модели математически разрывной. arXiv · Машинное обучение Калибровка моделей Mixture-of-Experts при сдвиге распределения данных Исследователи представили новый подход к калибровке архитектур Mixture-of-Experts (MoE), направленный на повышение надежности вероятностных прогнозов моделей. Проблема калибровки заключается в том, чтобы предсказанная моделью уверенность соответствовала реальной частоте правильных ответов. В условиях, когда данные на этапе эксплуатации отличаются от обучающей выборки — так называемый сдвиг распределения — точность и доверие к выходным вероятностям нейросетей часто снижаются. Hacker News · Машинное обучение Новый подход к законам масштабирования может изменить обучение ИИ-моделей Исследователи из Стэнфордского университета предложили новый подход к законам масштабирования, который может существенно повлиять на процесс обучения искусственных нейронных сетей. Традиционные законы масштабирования описывают, как увеличение размера модели и объёма данных влияет на её производительность. Однако новый метод позволяет более точно предсказывать, как изменения в архитектуре модели и данных повлияют на её точность и эффективность. arXiv · Машинное обучение Новый метод дообучения моделей речи для специфичных задач Исследователи предложили новый подход к дообучению foundation-моделей речи, которые изначально обучаются на больших объёмах неразмеченных данных. Такие модели создают универсальные представления, полезные для разных задач, но при этом кодируют информацию о ключевых переменных речи распределённо. Это означает, что для конкретных задач требуется только часть этой информации. arXiv · Инференс и железо Четырехуровневая архитектура оптимизации инференса больших моделей Исследователи представили новую методологию оптимизации инференса для крупномасштабных языковых моделей, сфокусированную на операциях с токенами. Основная цель разработки — снижение стоимости вычислений и повышение стабильности работы сервисов при масштабировании. Предложенная архитектура систематизирует подходы к ускорению генерации текста, объединяя программные и аппаратные уровни взаимодействия. Hacker News · Модели и релизы Консорциум Europa представил модель с 400 миллиардами параметров Европейский консорциум Europa одержал победу в профильном конкурсе ИИ-разработок, представив языковую модель с 400 миллиардами параметров. Проект стал ответом на доминирование американских технологических гигантов в области создания крупномасштабных нейросетевых архитектур. Разработка ориентирована на обеспечение технологического суверенитета и создание высокопроизводительных инструментов, адаптированных под европейские стандарты и требования к данным. arXiv · Машинное обучение Новый метод обучения мультимодальных моделей через разделение восприятия и рассуждения Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации.

← Все материалы