Hacker News · 23.06.2026 ·Оценка и бенчмарки

Оценка уверенности LLM-судей эффективнее простого сравнения ответов

Исследователи предложили новый подход к оценке качества работы LLM-судей, которые используются для автоматического тестирования других моделей. Традиционная методика опирается на «согласие» (agreement) — совпадение оценок ИИ с мнением человека или другой эталонной модели. Однако этот показатель часто оказывается обманчивым, так как модели могут давать одинаковые ответы по разным причинам, включая случайные ошибки или предвзятость к определенным формулировкам.

Вместо этого авторы работы предлагают использовать метрику оценки уверенности (confidence estimation). Суть метода заключается в анализе вероятностного распределения токенов, которые модель генерирует при выставлении оценки. Если модель «сомневается» в своем решении, это отражается в энтропии выходных данных, даже если итоговый вердикт выглядит уверенным. Учет этого параметра позволяет выявлять случаи, когда модель-судья дает верный ответ случайно или работает на пределе своих возможностей, что делает процесс автоматизированного тестирования более прозрачным.

Эксперименты показали, что модели, демонстрирующие высокую калибровку уверенности, значительно точнее предсказывают реальное качество ответов тестируемых систем. Использование предложенного подхода позволяет снизить количество ложноположительных результатов при автоматической оценке и лучше понимать границы применимости LLM в задачах контроля качества. Это решение упрощает процесс валидации моделей, делая метрики оценки более устойчивыми к шуму и специфическим особенностям обучения конкретных архитектур.

Источник: Hacker News

Похожие материалы

arXiv · Оценка и бенчмарки Новый метод борьбы с предвзятостью LLM-судей при оценке качества ответов Исследователи представили новый подход к оценке больших языковых моделей, использующих другие LLM в качестве «судей». Текущие системы автоматической оценки часто страдают от систематических искажений, не связанных с качеством контента. Наиболее выраженной проблемой является «предвзятость к многословию»: модели склонны завышать оценки длинным ответам, даже если они менее точны или информативны, чем краткие варианты. Hacker News · Оценка и бенчмарки Как оценивают LLM-судей с помощью возмущающих тестов Компания Forus представила метод оценки LLM-судей на основе возмущающих тестов. Подход позволяет проверять устойчивость моделей к различным типам искажений и ошибок, что критично для их использования в агентных системах. Hacker News · Оценка и бенчмарки Проблемы использования LLM в качестве судей для оценки ИИ-агентов Современные подходы к тестированию ИИ-агентов все чаще полагаются на автоматизированную оценку с помощью других языковых моделей, так называемых «LLM-as-a-judge». Однако практика показывает, что такие судьи склонны к предвзятости и поверхностному анализу. В ходе экспериментов исследователи обнаружили, что модели-судьи могут выставлять высокие баллы ответам агентов, даже если те не выполнили ключевые действия — например, не открыли необходимый для решения задачи файл. arXiv · Исследования и наука Исследование методов отслеживания влияния обучающих данных на ответы LLM Исследователи проанализировали два ключевых подхода к интерпретации поведения больших языковых моделей: оценку сходства данных (data-similarity) и оценку влияния данных (data-influence). Первый метод основан на поиске семантической близости между запросом и обучающей выборкой, что требует значительно меньше вычислительных ресурсов. Второй метод направлен на определение того, как конкретные примеры из обучающего набора напрямую меняют веса модели и влияют на итоговый результат, что считается более точным, но трудоемким процессом. arXiv · Исследования и наука ИИ автоматизирует проверку воспроизводимости исследований Учёные из Гарварда и MIT разработали метод, позволяющий использовать большие языковые модели (LLM) для автоматизированной оценки воспроизводимости исследований в социальных и поведенческих науках. Обычно проверка воспроизводимости требует ручного анализа данных независимыми исследователями, что занимает много времени и ресурсов. Новый подход позволяет значительно ускорить этот процесс, применяя LLM для анализа опубликованных данных и оценки их достоверности. arXiv · Оценка и бенчмарки Новый подход к оценке качества ответов LLM в задачах с открытым финалом Исследователи представили RECOM (Reddit Evaluation for Correspondence of Models) — новый метод оценки качества генеративных моделей, предназначенный для задач, где ответы носят субъективный или дискуссионный характер. Авторы работы указывают на фундаментальное противоречие в существующих автоматических метриках, которые одновременно пытаются оценить содержательную точность (валидность) и способность системы ранжировать модели по уровню их эффективности (дискриминационная способность). arXiv · ИИ в бизнесе Проблемы тестирования LLM-приложений в реальных условиях Исследователи проанализировали работу ИИ-ассистента для поиска недвижимости, который объединяет работу больших языковых моделей, поддержку нескольких международных рынков и динамический фронтенд. Несмотря на наличие автоматизированного набора из 1553 тестов, которые успешно проходили проверку, пользователи продолжали сталкиваться с критическими ошибками в интерфейсе. Это выявило разрыв между технической «зеленой зоной» тестов и реальным поведением системы в условиях непредсказуемых внешних данных. Hacker News · Оценка и бенчмарки Многомодальные LLM как судьи для оценки агентов В последнее время всё больше внимания уделяется использованию LLM (Large Language Models) в качестве судей для оценки качества работы других ИИ-агентов. В статье на Substack автор Yinghong Lan рассматривает концепцию Multimodal LLM-as-a-Judge, которая позволяет оценивать не только текстовые, но и мультимодальные данные, такие как изображения и видео. Hacker News · Оценка и бенчмарки Методы мониторинга качества ответов LLM в продакшене Разработчики систем на базе больших языковых моделей сталкиваются с проблемой деградации качества ответов API. В отличие от традиционного программного обеспечения, где ошибки имеют бинарный характер, поведение LLM меняется постепенно и часто непредсказуемо. Основные подходы к решению этой задачи включают внедрение автоматизированных систем оценки, которые сравнивают текущие ответы модели с эталонными наборами данных или используют более мощные модели для оценки качества работы менее производительных систем. Hacker News · Прогнозы и тренды Цифровизация суждений: как LLM меняют процесс принятия решений Современные большие языковые модели переходят от простой генерации текста к выполнению функций, связанных с принятием решений. В основе этого процесса лежит способность моделей оцифровывать человеческие суждения, превращая неявные экспертные оценки в структурированные вероятностные данные. Вместо того чтобы полагаться исключительно на интуицию, компании начинают использовать LLM для оценки рисков, квалификации лидов и выбора стратегий, опираясь на накопленный массив корпоративных знаний.

← Все материалы