Исследователи проанализировали надежность автоматизированных систем оценки для агентных инструментов анализа данных. В работе подчеркивается, что многошаговая природа таких агентов, генерирующих код и интерпретации, усложняет верификацию результатов. Авторы предлагают методологию разграничения реальных ошибок агента и артефактов, возникающих из-за несовершенства самих алгоритмов оценки, что критически важно для повышения точности тестирования сложных ИИ-систем.

Традиционные подходы к оценке LLM, ориентированные на одноходовые ответы, оказываются недостаточно эффективными для агентных систем. При анализе данных агент выполняет последовательность действий: пишет код, исполняет его, анализирует промежуточные результаты и формулирует выводы. Ошибка на любом из этих этапов может привести к неверному итоговому ответу, однако автоматические грейдеры часто не способны локализовать источник проблемы, смешивая содержательные ошибки с формальными несоответствиями.

В рамках исследования была разработана таксономия ошибок, позволяющая классифицировать расхождения между ответом агента и эталонным решением. Это помогает разработчикам лучше понимать, когда агент ошибается в логике рассуждений, а когда проблема кроется в некорректной интерпретации данных или синтаксических сбоях при выполнении кода. Такой подход позволяет создавать более устойчивые пайплайны тестирования для агентных систем, работающих с реальными бизнес-данными.

Ключевые факты

  • Агентные системы анализа данных требуют оценки не только финального ответа, но и промежуточных артефактов, таких как сгенерированный код и логика вычислений.
  • Разработана методология разделения «истинных» ошибок агента и ошибок, возникающих из-за неточности самих автоматизированных систем оценки (грейдеров).
  • Исследование выявило, что текущие методы автоматической оценки часто дают ложные сигналы при проверке многошаговых процессов.
  • Предложенная классификация ошибок помогает точнее настраивать бенчмарки для агентных систем, работающих с количественными данными.