Разработка надежных систем оценки (evals) для ИИ-агентов в финансовом секторе требует перехода от простых тестов к многоуровневой архитектуре проверки. Основная сложность заключается в том, что стандартные метрики точности ответов часто не отражают реальную эффективность агента при выполнении многошаговых задач. Опыт показывает, что создание качественного набора данных для тестирования — это итеративный процесс, требующий участия экспертов предметной области для разметки «золотых стандартов» ответов.
Ключевым подходом становится использование LLM-as-a-judge, где одна модель оценивает логику и корректность действий другой. Однако такая система требует постоянной калибровки, чтобы избежать предвзятости и галлюцинаций самой модели-судьи. Важным этапом является внедрение «отрицательных тестов», которые проверяют способность агента отказываться от выполнения небезопасных или выходящих за рамки компетенции запросов, что критически важно для финансовых операций.
Практика показывает, что автоматизация оценки должна быть интегрирована непосредственно в CI/CD пайплайн. Это позволяет отслеживать деградацию производительности модели при обновлении промптов или смене базовой архитектуры. Стабильность системы достигается за счет комбинации детерминированных проверок (например, сверка итоговых сумм) и вероятностных оценок, которые анализируют контекст и соблюдение внутренних регламентов компании.