Исследователи представили усовершенствованные подходы к использованию LLM в качестве «судей» для автоматизированной оценки качества ответов других моделей. Авторы статьи систематизировали методы минимизации предвзятости и повышения корреляции оценок ИИ с человеческими предпочтениями, предложив новые стратегии промптинга и калибровки, которые позволяют значительно точнее определять качество генерации в сложных задачах без привлечения экспертов-людей.
Традиционные методы оценки, основанные на использовании мощных моделей для анализа ответов более слабых систем, часто страдают от «позиционной предвзятости» (предпочтения первого ответа) и недостаточной глубины анализа. Новое исследование предлагает архитектурные изменения в процессе оценки, включая многоэтапное рассуждение судьи и использование референсных данных для калибровки весов, что позволяет снизить уровень шума в метриках.
Эти наработки критически важны для разработчиков, внедряющих автоматизированные пайплайны тестирования моделей. Использование более надежных «судей» позволяет быстрее итеративно улучшать качество систем, сокращая зависимость от дорогостоящей ручной разметки данных при сохранении высокой точности оценки производительности в специфических доменах.
Ключевые факты
- Предложены методы борьбы с позиционной предвзятостью, при которой модель-судья необоснованно отдает предпочтение первому варианту ответа.
- Внедрена техника многоэтапного рассуждения (Chain-of-Thought) для судьи, повышающая точность оценки логических и творческих задач.
- Разработан механизм калибровки, который корректирует оценки модели на основе эталонных наборов данных с известными метриками качества.
- Исследование демонстрирует повышение корреляции между автоматической оценкой и человеческим рейтингом на 15–20% в зависимости от типа задачи.
- Методология применима для оценки моделей в задачах RAG, суммаризации и написания программного кода.