arXiv · 16.06.2026 ·Модели и релизы

Новый метод SoftMoE для эффективного масштабирования LLM

Исследователи предложили новый подход SoftMoE для улучшения работы архитектур Mixture-of-Experts (MoE) в языковых моделях. Традиционные MoE используют top-k маршрутизацию, которая активирует только часть экспертов, но из-за недифференцируемости этого оператора число активных экспертов фиксировано, что приводит к неэффективному использованию вычислительных ресурсов.

SoftMoE решает эту проблему, предлагая мягкий дифференцируемый маршрутизатор. Это позволяет динамически выбирать количество активных экспертов в зависимости от входных данных, что повышает эффективность вычислений. Авторы утверждают, что их метод обеспечивает более гибкое и адаптивное масштабирование параметров моделей при сохранении качества.

Исследование показывает, что SoftMoE может значительно улучшить производительность языковых моделей, особенно при работе с большими объемами данных. Это открывает новые возможности для разработки более мощных и эффективных LLM, способных обрабатывать сложные задачи с минимальными вычислительными затратами.

Работа опубликована на arXiv и доступна для дальнейшего изучения и применения в практических задачах.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Машинное обучение PuzzleMoE: новый метод сжатия моделей Mixture-of-Experts Исследователи представили PuzzleMoE — метод эффективного сжатия моделей с архитектурой Mixture-of-Experts (MoE). Технология позволяет значительно сократить количество параметров и вычислительные затраты при сохранении высокой точности нейросети. Подход оптимизирует структуру экспертов, делая крупные языковые модели более доступными для развертывания на ограниченных аппаратных ресурсах без существенной потери качества генерации. arXiv · Инфраструктура для агентов FoMoE: новый подход к обучению MoE-моделей через федерацию экспертов Исследователи представили архитектуру FoMoE (Federation of Mixture-of-Experts), которая решает проблему жесткой привязки параметров модели к вычислительной инфраструктуре. Традиционные методы обучения крупных языковых моделей требуют использования массивов тесно связанных ускорителей, что ограничивает масштабируемость. Новый подход позволяет распределять экспертов в составе MoE-архитектуры между независимыми вычислительными узлами, снимая барьер «полной репликации» весов модели на каждом устройстве. arXiv · Модели и релизы Как оптимально обрезать экспертов в моделях MoE Исследователи предложили унифицированный подход к обрезке экспертов в моделях Mixture-of-Experts (MoE), что может существенно снизить память и вычислительные затраты при развёртывании таких моделей. В статье, опубликованной на arXiv, авторы отмечают, что хотя MoE-модели эффективно распределяют вычисления между экспертами, их развёртывание всё равно требует хранения полного пула экспертов. Это создаёт проблемы с памятью, особенно при использовании в агентных системах, где важна эффективность инференса. Hacker News · Инференс и железо Распределенный инференс модели на 229 млрд параметров через интернет Исследователи представили метод распределенного инференса для MoE-модели (Mixture of Experts) объемом 229 миллиардов параметров, работающий в интерактивном режиме через интернет. Технология позволяет запускать тяжелые языковые модели, используя вычислительные мощности нескольких узлов, объединенных сетью, что значительно снижает требования к локальному оборудованию при сохранении высокой скорости генерации токенов. arXiv · Исследования и наука Новый метод анализа эффективности роутинга в MoE-моделях Исследователи представили Expert Subspace Separation Index (ESSI) — метрику для оценки качества маршрутизации токенов в разреженных моделях Mixture-of-Experts (MoE). Метод позволяет разделить влияние когерентности маршрутов, качества экспертов и их взаимодействия с контекстом, опровергая упрощенное представление о том, что эффективность MoE зависит исключительно от геометрической комплементарности векторов представления экспертов. arXiv · Инференс и железо Метод MAESTRO для оптимизации Mixture-of-Experts моделей Исследователи представили метод MAESTRO для эффективного прунинга (прореживания) экспертов в разреженно-активируемых моделях (MoE). Технология позволяет удалять избыточные параметры, сохраняя при этом высокую точность работы нейросети. Это решение значительно снижает требования к оперативной памяти при развертывании крупных языковых моделей, устраняя одну из главных проблем масштабируемости архитектур типа MoE в продакшене. arXiv · Обучение и дообучение Масштабируемые законы дистилляции LLM для узкоспециализированных задач Исследователи вывели эмпирические законы масштабирования для дистилляции LLM, позволяющие прогнозировать качество сжатых моделей в зависимости от объема данных и коэффициента компрессии. Работа решает проблему высокой стоимости и задержек при развертывании крупных моделей, предлагая математически обоснованный подход к созданию компактных и эффективных версий нейросетей для специфических доменов без потери критических знаний. arXiv · Оценка и бенчмарки Масштабируемая и надежная автоматизированная оценка ответов LLM Исследователи представили новый подход к автоматизированной оценке качества и релевантности ответов больших языковых моделей. Метод решает проблему зависимости от эталонных текстов, позволяя оценивать сложные и вариативные генерации без необходимости в жестких референсах. Это открывает путь к более эффективному тестированию моделей в областях, где отсутствуют готовые объективные бенчмарки и требуется высокая точность оценки. arXiv · Машинное обучение Адаптивная маршрутизация экспертов в LoRA для оптимизации вычислений Исследователи представили метод Confidence-Adaptive Routing, оптимизирующий работу Mixture-of-Experts (MoE) в архитектурах LoRA. Вместо фиксированного количества экспертов для каждого токена, система динамически распределяет вычислительные ресурсы на основе уверенности модели. Это позволяет экономить ресурсы на простых запросах и направлять больше мощности на сложные задачи, повышая общую эффективность инференса без потери качества генерации. arXiv · Исследования и наука Геометрический анализ разрывов в архитектурах Sparse Mixture-of-Experts Исследователи представили новый математический анализ архитектур Sparse Mixture-of-Experts (SMoE), которые лежат в основе большинства современных больших языковых и мультимодальных моделей. Основная проблема таких систем заключается в механизме маршрутизации Top-k, который динамически выбирает активные нейронные сети для обработки конкретного токена. Этот процесс делает функцию преобразования данных в модели математически разрывной.

← Все материалы