Исследователи предложили новый подход к оценке качества работы LLM-судей, которые используются для автоматического тестирования других моделей. Традиционная методика опирается на «согласие» (agreement) — совпадение оценок ИИ с мнением человека или другой эталонной модели. Однако этот показатель часто оказывается обманчивым, так как модели могут давать одинаковые ответы по разным причинам, включая случайные ошибки или предвзятость к определенным формулировкам.

Вместо этого авторы работы предлагают использовать метрику оценки уверенности (confidence estimation). Суть метода заключается в анализе вероятностного распределения токенов, которые модель генерирует при выставлении оценки. Если модель «сомневается» в своем решении, это отражается в энтропии выходных данных, даже если итоговый вердикт выглядит уверенным. Учет этого параметра позволяет выявлять случаи, когда модель-судья дает верный ответ случайно или работает на пределе своих возможностей, что делает процесс автоматизированного тестирования более прозрачным.

Эксперименты показали, что модели, демонстрирующие высокую калибровку уверенности, значительно точнее предсказывают реальное качество ответов тестируемых систем. Использование предложенного подхода позволяет снизить количество ложноположительных результатов при автоматической оценке и лучше понимать границы применимости LLM в задачах контроля качества. Это решение упрощает процесс валидации моделей, делая метрики оценки более устойчивыми к шуму и специфическим особенностям обучения конкретных архитектур.