Исследователи представили архитектуру FoMoE (Federation of Mixture-of-Experts), которая решает проблему жесткой привязки параметров модели к вычислительной инфраструктуре. Традиционные методы обучения крупных языковых моделей требуют использования массивов тесно связанных ускорителей, что ограничивает масштабируемость. Новый подход позволяет распределять экспертов в составе MoE-архитектуры между независимыми вычислительными узлами, снимая барьер «полной репликации» весов модели на каждом устройстве.
Технология опирается на децентрализованное обучение, при котором экспертные блоки модели могут размещаться на различных кластерах, объединенных в федерацию. Это позволяет значительно снизить требования к пропускной способности сети между узлами, так как для обработки конкретного токена активируется лишь малая часть экспертов. В результате становится возможным обучение моделей с экстремально большим количеством параметров на распределенных мощностях, которые ранее были недоступны для подобных задач из-за ограничений по памяти и скорости передачи данных.
Данное решение меняет подход к построению инфраструктуры для обучения сверхкрупных моделей. Вместо создания единого монолитного кластера с высокой плотностью ускорителей, разработчики получают возможность использовать гетерогенные вычислительные ресурсы. Это открывает путь к более эффективному использованию существующих дата-центров и снижает порог входа для обучения моделей, сопоставимых по качеству с современными SOTA-решениями, но с меньшими затратами на сетевую инфраструктуру.