Масштабное исследование 67 различных языковых моделей показало, что стратегии объединения нескольких LLM в ансамбли для улучшения ответов зачастую не дают значимого прироста качества. В большинстве случаев производительность комбинированной системы ограничена возможностями самой сильной модели в группе, что ставит под сомнение эффективность сложных схем оркестрации для повышения точности генерации.
Авторы работы проанализировали различные методы агрегации ответов, включая голосование и динамический выбор модели, на широком спектре задач. Выяснилось, что накладные расходы на инференс нескольких моделей и сложность управления такими системами редко оправдываются результатами, которые лишь незначительно превышают показатели топовых моделей, таких как GPT-4o или Claude 3.5 Sonnet.
Результаты исследования подчеркивают важность выбора одной, наиболее подходящей под конкретную задачу модели, вместо попыток «усреднить» интеллект через объединение множества агентов. Это меняет подход к проектированию систем, где приоритет отдается оптимизации промптов и дообучению одной мощной модели, а не созданию громоздких архитектур из десятков разнородных LLM.
Ключевые факты
- В тестировании приняли участие 67 различных языковых моделей, включая как проприетарные, так и open-source решения.
- Исследование показало, что ансамблирование редко обеспечивает прирост метрик, превышающий погрешность лучшей модели в составе группы.
- Основным фактором, ограничивающим эффективность ансамблей, является высокая стоимость и задержка (latency) при параллельном инференсе нескольких LLM.
- Работа доступна в виде интерактивного пространства на платформе Hugging Face, позволяющего оценить результаты для различных комбинаций моделей.