Исследователи выявили критическую уязвимость в работе ИИ-агентов: даже при корректном выборе инструмента и правильном синтаксисе API, модели часто допускают ошибки в выборе целевых сущностей. Агенты путают контакты, файлы или параметры, что приводит к выполнению действий над неверными объектами. Это создает серьезные риски для автоматизированных систем, требующих высокой точности в работе с внешними данными.

Проблема, получившая название «Entity Binding Failure», заключается в неспособности моделей надежно сопоставлять абстрактные запросы пользователя с конкретными идентификаторами в базе данных или API. В ходе тестов выяснилось, что текущие методы оценки агентов фокусируются на успешности вызова функции, игнорируя семантическую точность выбора аргументов. Это приводит к тому, что агент может отправить конфиденциальное письмо не тому адресату или прикрепить неверный документ, формально выполнив инструкцию.

Авторы работы предлагают пересмотреть подходы к тестированию агентных систем, внедряя метрики, проверяющие не только выбор инструмента, но и корректность привязки сущностей. Без решения этой проблемы надежное внедрение ИИ-агентов в корпоративные процессы, связанные с управлением данными и коммуникациями, остается затруднительным из-за высокого риска ошибок при интерпретации контекста.

Ключевые факты

  • Ошибка привязки сущностей (Entity Binding Failure) возникает, когда агент выбирает верный инструмент, но ошибается в конкретных параметрах (например, выбирает не того пользователя из списка контактов).
  • Текущие бенчмарки для оценки агентов недостаточно учитывают точность выбора аргументов, фокусируясь преимущественно на выборе правильного API-метода.
  • Исследование подчеркивает разрыв между синтаксической корректностью кода и семантической точностью выполнения задачи в реальных условиях.
  • Ошибки привязки наиболее критичны в задачах, требующих работы с персональными данными, документами и сложными иерархиями объектов.