Исследование 67 передовых языковых моделей показало, что методы ансамблирования и объединения LLM зачастую не дают значимого прироста производительности по сравнению с использованием одной топовой модели. Несмотря на популярность стратегий объединения ответов, результаты тестов демонстрируют, что сложность внедрения таких систем редко оправдывается качественным скачком в точности или надежности генерации ответов.
Авторы работы проанализировали широкий спектр архитектур, включая проприетарные и открытые решения, чтобы оценить эффективность различных техник агрегации, таких как голосование, ранжирование и итеративное уточнение. Выяснилось, что в большинстве сценариев «лучшая из доступных» модель демонстрирует более стабильные результаты, чем любая комбинация из нескольких менее мощных или аналогичных по уровню систем.
Основная проблема заключается в том, что ошибки моделей при комбинировании часто суммируются или усиливаются, а не нивелируются. Кроме того, использование ансамблей значительно увеличивает стоимость инференса и задержки, что делает подобные архитектуры экономически неэффективными для большинства прикладных задач. Исследование подчеркивает важность выбора оптимальной базовой модели вместо попыток компенсировать её недостатки за счет масштабирования количества используемых нейросетей.
Ключевые факты
- В исследовании протестировано 67 различных моделей, представляющих текущий срез передовых технологий (frontier models).
- Методы ансамблирования не показали статистически значимого преимущества в задачах на логику и генерацию кода по сравнению с лучшей одиночной моделью в группе.
- Основным барьером для использования комбинаций LLM является кратное увеличение затрат на API и вычислительные ресурсы при отсутствии пропорционального роста качества.
- Эффективность стратегий «голосования» между моделями падает при работе с задачами, требующими глубокого контекстного понимания, из-за корреляции ошибок между схожими архитектурами.