Исследователи из IBM Research представили VAKRA — новый бенчмарк для оценки способностей ИИ-агентов к логическому мышлению, использованию инструментов и обработке ошибок. В отличие от существующих тестов, VAKRA фокусируется на комплексных сценариях, требующих от агентов не только генерации текста, но и выполнения последовательных действий с анализом промежуточных результатов.
Бенчмарк включает 100 задач, охватывающих три ключевые области: логическое мышление, использование инструментов и обработку ошибок. Каждая задача оценивает, как агент справляется с неожиданными ситуациями, например, с некорректными ответами от внешних API или отсутствием необходимых данных. Это особенно важно для разработчиков ИИ-агентов, так как позволяет выявить слабые места в алгоритмах принятия решений.
В исследовании также представлены результаты тестирования нескольких популярных моделей, включая GPT-4 и Llama 2. Выяснилось, что даже лучшие модели демонстрируют значительные проблемы с обработкой ошибок и адаптацией к новым условиям. Например, при выполнении задач, требующих использования нескольких инструментов, агенты часто «застревают» на первых шагах или игнорируют критические ошибки.
Для команды, работающей над ИИ-агентом Jarv, VAKRA может стать полезным инструментом для оценки и улучшения алгоритмов. Бенчмарк помогает выявить конкретные сценарии, в которых агент может столкнуться с трудностями, и предложить пути их решения. Кроме того, анализ ошибок позволяет оптимизировать процессы принятия решений и повысить общую надежность системы.
