Исследователи проанализировали 67 передовых языковых моделей и выявили фундаментальное ограничение для систем, объединяющих несколько ИИ (роутинг, голосование, ансамбли). Оказалось, что точность таких систем ограничена показателем «ко-отказа»: если все модели в системе ошибаются на одном и том же запросе, никакая комбинация не сможет исправить этот результат, что создает жесткий «потолок» производительности.
Авторы работы вводят понятие «ко-отказа» (co-failure) — частоты случаев, при которых все модели в ансамбле выдают неверный ответ одновременно. В текущих архитектурах, где итоговый результат выбирается из ответов отдельных моделей, точность системы математически не может превысить единицу минус этот коэффициент. Это означает, что простое увеличение количества моделей в системе дает убывающую отдачу, если эти модели склонны совершать одни и те же ошибки на идентичных типах задач.
Исследование ставит под сомнение эффективность популярных подходов, таких как Mixture-of-Agents или каскадные системы, если они строятся на моделях с высокой корреляцией ошибок. Для преодоления этого «потолка» авторы предлагают пересмотреть подходы к диверсификации моделей, чтобы минимизировать вероятность их одновременного сбоя на сложных промптах.
Ключевые факты
- Исследование охватило 67 различных языковых моделей, включая современные frontier-решения.
- Установлено, что точность систем, выбирающих ответ одной из моделей, ограничена формулой (1 - beta), где beta — вероятность одновременной ошибки всех моделей.
- Эффективность ансамблей ИИ напрямую зависит от того, насколько различаются типы ошибок, совершаемых входящими в них моделями.
- Выявлено, что текущие методы роутинга и голосования часто упираются в «потолок» из-за высокой корреляции ответов между моделями одного класса.
- Работа подчеркивает необходимость разработки методов, которые целенаправленно снижают корреляцию ошибок в мультимодельных архитектурах.