Современные подходы к тестированию ИИ-агентов все чаще полагаются на автоматизированную оценку с помощью других языковых моделей, так называемых «LLM-as-a-judge». Однако практика показывает, что такие судьи склонны к предвзятости и поверхностному анализу. В ходе экспериментов исследователи обнаружили, что модели-судьи могут выставлять высокие баллы ответам агентов, даже если те не выполнили ключевые действия — например, не открыли необходимый для решения задачи файл.
Основная проблема заключается в том, что модели-судьи часто оценивают правдоподобность и стилистическую грамотность текста, игнорируя фактическую корректность процесса выполнения задания. Если агент формулирует ответ уверенно и логично, «судья» склонен игнорировать отсутствие реальных манипуляций с данными или системными вызовами. Это создает иллюзию успешной работы системы, скрывая критические сбои в логике агента.
Такая методология оценки приводит к накоплению «галлюцинаций» в метриках производительности. Разработчики, опираясь на высокие показатели автоматических судей, могут не замечать, что агент имитирует выполнение задачи, а не решает её на самом деле. Для повышения надежности систем требуется переход от оценки финального текста к анализу логов выполнения действий и проверке фактического доступа к инструментам и внешним ресурсам.