Исследование с использованием нового бенчмарка DiscoBench показало, что ИИ-агенты для поиска чаще ошибаются не из-за неэффективности алгоритмов поиска, а из-за неспособности уточнять неоднозначные запросы у пользователей. Вместо диалога модели склонны к многократному перебору вариантов, что снижает точность ответов до 51,9%, при этом даже лучшие системы достигают успеха лишь в 43% случаев.

Основная проблема заключается в «галлюцинациях стратегии», когда агент пытается самостоятельно интерпретировать расплывчатый запрос вместо того, чтобы задать уточняющий вопрос. Авторы бенчмарка DiscoBench подчеркивают, что текущие архитектуры агентов настроены на автономность, которая в условиях неопределенности приводит к накоплению ошибок на каждом этапе многошагового поиска. Модели, которые пытаются угадать намерение пользователя, показывают более низкие результаты, чем те, что делают ставку на случайный выбор.

Результаты тестирования указывают на необходимость изменения парадигмы проектирования агентных систем. Разработчикам предлагается внедрять механизмы принудительной верификации намерений, если уровень уверенности модели в интерпретации запроса падает ниже определенного порога. Это позволит сократить количество бесполезных итераций и повысить релевантность выдачи в сложных поисковых сценариях.

Ключевые факты

  • DiscoBench — новый бенчмарк для оценки способности ИИ-агентов к многошаговому поиску и уточнению запросов.
  • Модели, выбирающие стратегию многократного поиска вместо уточнения, показывают точность на уровне 51,9%.
  • Общая эффективность даже лучших современных моделей в тестах DiscoBench не превышает 43%.
  • Главным барьером для качества поиска признана неспособность агентов распознавать неоднозначность и инициировать диалог с пользователем.