Hacker News · 24.06.2026 ·Оценка и бенчмарки

Использование LLM для оценки качества поисковой выдачи через метрику NDCG

Для оценки качества поисковых систем теперь применяют LLM в качестве судей, автоматизирующих расчет метрики NDCG (Normalized Discounted Cumulative Gain). Этот подход позволяет заменить дорогостоящую ручную разметку релевантности документов, используя возможности больших языковых моделей для анализа соответствия результатов поискового запроса намерениям пользователя, что значительно ускоряет итерации при настройке алгоритмов поиска.

Традиционные методы оценки поисковой выдачи часто опираются на экспертные оценки, которые сложно масштабировать при частых изменениях в индексах или алгоритмах ранжирования. Использование LLM в качестве «судьи» позволяет подавать на вход модели пары «запрос-документ» и получать оценку релевантности по шкале, которая затем агрегируется в итоговый показатель NDCG. Это дает возможность проводить A/B-тестирование и оценку новых моделей ранжирования практически в реальном времени.

Основная сложность метода заключается в калибровке LLM, чтобы их оценки коррелировали с человеческими предпочтениями. Исследование показывает, что при правильном промпт-инжиниринге и использовании моделей с сильными способностями к рассуждению, таких как GPT-4, результаты оценки становятся статистически значимыми и воспроизводимыми. Метод позволяет эффективно отслеживать деградацию качества поиска при внедрении новых фич или обновлении векторных баз данных.

Ключевые факты

NDCG (Normalized Discounted Cumulative Gain) выбрана как основная метрика из-за учета позиции релевантных документов в выдаче.
LLM выступает в роли автоматизированного оценщика, присваивающего баллы релевантности каждому результату поиска.
Метод значительно сокращает время цикла обратной связи при разработке поисковых систем по сравнению с ручным тестированием.
Использование LLM-судей позволяет масштабировать оценку на тысячи поисковых запросов без привлечения внешних асессоров.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Оценка и бенчмарки Оценка уверенности LLM-судей эффективнее простого сравнения ответов Исследователи предложили новый подход к оценке качества работы LLM-судей, которые используются для автоматического тестирования других моделей. Традиционная методика опирается на «согласие» (agreement) — совпадение оценок ИИ с мнением человека или другой эталонной модели. Однако этот показатель часто оказывается обманчивым, так как модели могут давать одинаковые ответы по разным причинам, включая случайные ошибки или предвзятость к определенным формулировкам. arXiv · Исследования и наука ИИ автоматизирует проверку воспроизводимости исследований Учёные из Гарварда и MIT разработали метод, позволяющий использовать большие языковые модели (LLM) для автоматизированной оценки воспроизводимости исследований в социальных и поведенческих науках. Обычно проверка воспроизводимости требует ручного анализа данных независимыми исследователями, что занимает много времени и ресурсов. Новый подход позволяет значительно ускорить этот процесс, применяя LLM для анализа опубликованных данных и оценки их достоверности. arXiv · Оценка и бенчмарки Новый метод борьбы с предвзятостью LLM-судей при оценке качества ответов Исследователи представили новый подход к оценке больших языковых моделей, использующих другие LLM в качестве «судей». Текущие системы автоматической оценки часто страдают от систематических искажений, не связанных с качеством контента. Наиболее выраженной проблемой является «предвзятость к многословию»: модели склонны завышать оценки длинным ответам, даже если они менее точны или информативны, чем краткие варианты. Hacker News · Оценка и бенчмарки Многомодальные LLM как судьи для оценки агентов В последнее время всё больше внимания уделяется использованию LLM (Large Language Models) в качестве судей для оценки качества работы других ИИ-агентов. В статье на Substack автор Yinghong Lan рассматривает концепцию Multimodal LLM-as-a-Judge, которая позволяет оценивать не только текстовые, но и мультимодальные данные, такие как изображения и видео. Hacker News · Оценка и бенчмарки Как оценивают LLM-судей с помощью возмущающих тестов Компания Forus представила метод оценки LLM-судей на основе возмущающих тестов. Подход позволяет проверять устойчивость моделей к различным типам искажений и ошибок, что критично для их использования в агентных системах. Hacker News · Оркестрация агентов GEDD: фреймворк для оценки LLM на основе системных доказательств Команда AWS представила GEDD (Generative Evidence Driven Decisions) — фреймворк, который позволяет использовать LLM в качестве судьи для оценки качества решений. GEDD систематически собирает и анализирует доказательства, чтобы принимать обоснованные решения. Это особенно полезно для задач, где требуется высокая степень точности и прозрачности, таких как медицинские диагнозы, юридические консультации или финансовые анализы. Hacker News · Исследования и наука Исследование: насколько можно доверять LLM при анализе данных (EDA) Исследователи проанализировали применимость больших языковых моделей для проведения разведочного анализа данных (EDA). В работе оценивается способность ИИ-агентов самостоятельно выполнять стандартные этапы работы с датасетами: от первичной очистки и выявления пропусков до построения статистических гипотез и визуализации распределений. Авторы статьи сфокусировались на том, насколько точно модели интерпретируют структуру табличных данных и избегают галлюцинаций при генерации кода для анализа. Hacker News · Прогнозы и тренды Цифровизация суждений: как LLM меняют процесс принятия решений Современные большие языковые модели переходят от простой генерации текста к выполнению функций, связанных с принятием решений. В основе этого процесса лежит способность моделей оцифровывать человеческие суждения, превращая неявные экспертные оценки в структурированные вероятностные данные. Вместо того чтобы полагаться исключительно на интуицию, компании начинают использовать LLM для оценки рисков, квалификации лидов и выбора стратегий, опираясь на накопленный массив корпоративных знаний. Hacker News · Инфраструктура для агентов Автоматическая маршрутизация запросов для оптимизации стоимости и скорости LLM Компания Factory представила инструмент для автоматической маршрутизации запросов между различными языковыми моделями. Система в режиме реального времени анализирует входящие задачи и перенаправляет их на наиболее подходящую модель, исходя из заданных параметров стоимости и времени отклика. Такой подход позволяет компаниям снизить расходы на API, не жертвуя качеством ответов в критически важных сценариях. The Gradient · Память и RAG Как LLMs меняют финансовые рынки и инвестиции В 2023 году ИИ-революция привлекла огромные инвестиции в частные и публичные компании, а также завоевала внимание широкой аудитории. Одним из ключевых драйверов этого роста стали большие языковые модели (LLMs), которые лежат в основе таких продуктов, как ChatGPT. Эти модели демонстрируют удивительную способность моделировать последовательности токенов, представляющих слова или их части, что открывает новые возможности для анализа и прогнозирования на финансовых рынках.

← Все материалы