Исследователи предложили унифицированный подход к обрезке экспертов в моделях Mixture-of-Experts (MoE), что может существенно снизить память и вычислительные затраты при развёртывании таких моделей. В статье, опубликованной на arXiv, авторы отмечают, что хотя MoE-модели эффективно распределяют вычисления между экспертами, их развёртывание всё равно требует хранения полного пула экспертов. Это создаёт проблемы с памятью, особенно при использовании в агентных системах, где важна эффективность инференса.

Предложенный метод предлагает единый принцип для выбора экспертов, которые можно удалить без значительного ущерба для качества модели. Это особенно важно для агентов, работающих с локальными моделями, где ограничена память и вычислительные ресурсы. Исследователи подчёркивают, что существующие критерии обрезки экспертов носят в основном эвристический характер и не всегда оптимальны.

Авторы формулируют математический принцип выбора экспертов, который может быть применён к различным архитектурам MoE. Это открывает возможности для разработки более компактных и эффективных моделей, что критично для агентов, работающих в условиях ограниченных ресурсов. Например, такие модели могут быть использованы в мобильных или встраиваемых системах, где важна минимальная задержка и низкое энергопотребление.

Для команды, разрабатывающей ИИ-агента Jarv, этот подход может стать важным инструментом для оптимизации используемых моделей. Это позволит снизить затраты на инференс и улучшить производительность агента, особенно в условиях ограниченных ресурсов. Кроме того, предложенный метод может быть интегрирован в существующие фреймворки для работы с MoE-моделями, что упростит его внедрение в реальные системы.