Компания Forus представила метод оценки LLM-судей на основе возмущающих тестов. Подход позволяет проверять устойчивость моделей к различным типам искажений и ошибок, что критично для их использования в агентных системах.

Возмущающие тесты включают в себя добавление шума, изменение порядка слов и другие манипуляции с входными данными. Это помогает выявить слабые места моделей и улучшить их точность при работе с неструктурированными запросами.

Forus отмечает, что такой подход особенно полезен для оценки моделей, предназначенных для работы в сложных средах, где входные данные могут быть неполными или искажёнными. Метод уже используется в их внутренних тестах и показывает высокую эффективность.

Компания планирует открыть доступ к своим инструментам для оценки LLM-судей в ближайшее время, что может стать важным шагом для развития агентных систем.