Исследователи представили новый подход к оценке больших языковых моделей, использующих другие LLM в качестве «судей». Текущие системы автоматической оценки часто страдают от систематических искажений, не связанных с качеством контента. Наиболее выраженной проблемой является «предвзятость к многословию»: модели склонны завышать оценки длинным ответам, даже если они менее точны или информативны, чем краткие варианты.

Для решения этой задачи предложен метод, основанный на обучении с положительными и неразмеченными данными (Positive-Unlabeled Learning). В условиях, когда экспертная человеческая разметка стоит дорого и охватывает лишь малую часть данных, авторы предлагают использовать надежные положительные примеры для калибровки оценок. Это позволяет эффективно выявлять скрытые ошибки в суждениях моделей, которые возникают из-за поверхностных характеристик текста, а не из-за его смыслового наполнения.

Предложенный алгоритм позволяет проводить аудит систем оценки без необходимости полной ручной проверки всех ответов. Такой подход повышает объективность бенчмарков и позволяет точнее определять реальную эффективность моделей в задачах, где требуется лаконичность и точность. Метод помогает отделить истинное качество генерации от статистических артефактов, которые часто вводят в заблуждение разработчиков при автоматизированном тестировании.