Масштабное исследование 67 различных языковых моделей показало, что стратегии объединения нескольких LLM в ансамбли для улучшения ответов зачастую не дают значимого прироста качества. В большинстве случаев производительность комбинированной системы ограничена возможностями самой сильной модели в группе, что ставит под сомнение эффективность сложных схем оркестрации для повышения точности генерации.

Авторы работы проанализировали различные методы агрегации ответов, включая голосование и динамический выбор модели, на широком спектре задач. Выяснилось, что накладные расходы на инференс нескольких моделей и сложность управления такими системами редко оправдываются результатами, которые лишь незначительно превышают показатели топовых моделей, таких как GPT-4o или Claude 3.5 Sonnet.

Результаты исследования подчеркивают важность выбора одной, наиболее подходящей под конкретную задачу модели, вместо попыток «усреднить» интеллект через объединение множества агентов. Это меняет подход к проектированию систем, где приоритет отдается оптимизации промптов и дообучению одной мощной модели, а не созданию громоздких архитектур из десятков разнородных LLM.

Ключевые факты

  • В тестировании приняли участие 67 различных языковых моделей, включая как проприетарные, так и open-source решения.
  • Исследование показало, что ансамблирование редко обеспечивает прирост метрик, превышающий погрешность лучшей модели в составе группы.
  • Основным фактором, ограничивающим эффективность ансамблей, является высокая стоимость и задержка (latency) при параллельном инференсе нескольких LLM.
  • Работа доступна в виде интерактивного пространства на платформе Hugging Face, позволяющего оценить результаты для различных комбинаций моделей.