Исследователи предложили новый подход SoftMoE для улучшения работы архитектур Mixture-of-Experts (MoE) в языковых моделях. Традиционные MoE используют top-k маршрутизацию, которая активирует только часть экспертов, но из-за недифференцируемости этого оператора число активных экспертов фиксировано, что приводит к неэффективному использованию вычислительных ресурсов.
SoftMoE решает эту проблему, предлагая мягкий дифференцируемый маршрутизатор. Это позволяет динамически выбирать количество активных экспертов в зависимости от входных данных, что повышает эффективность вычислений. Авторы утверждают, что их метод обеспечивает более гибкое и адаптивное масштабирование параметров моделей при сохранении качества.
Исследование показывает, что SoftMoE может значительно улучшить производительность языковых моделей, особенно при работе с большими объемами данных. Это открывает новые возможности для разработки более мощных и эффективных LLM, способных обрабатывать сложные задачи с минимальными вычислительными затратами.
Работа опубликована на arXiv и доступна для дальнейшего изучения и применения в практических задачах.