Для оценки качества поисковых систем теперь применяют LLM в качестве судей, автоматизирующих расчет метрики NDCG (Normalized Discounted Cumulative Gain). Этот подход позволяет заменить дорогостоящую ручную разметку релевантности документов, используя возможности больших языковых моделей для анализа соответствия результатов поискового запроса намерениям пользователя, что значительно ускоряет итерации при настройке алгоритмов поиска.
Традиционные методы оценки поисковой выдачи часто опираются на экспертные оценки, которые сложно масштабировать при частых изменениях в индексах или алгоритмах ранжирования. Использование LLM в качестве «судьи» позволяет подавать на вход модели пары «запрос-документ» и получать оценку релевантности по шкале, которая затем агрегируется в итоговый показатель NDCG. Это дает возможность проводить A/B-тестирование и оценку новых моделей ранжирования практически в реальном времени.
Основная сложность метода заключается в калибровке LLM, чтобы их оценки коррелировали с человеческими предпочтениями. Исследование показывает, что при правильном промпт-инжиниринге и использовании моделей с сильными способностями к рассуждению, таких как GPT-4, результаты оценки становятся статистически значимыми и воспроизводимыми. Метод позволяет эффективно отслеживать деградацию качества поиска при внедрении новых фич или обновлении векторных баз данных.
Ключевые факты
- NDCG (Normalized Discounted Cumulative Gain) выбрана как основная метрика из-за учета позиции релевантных документов в выдаче.
- LLM выступает в роли автоматизированного оценщика, присваивающего баллы релевантности каждому результату поиска.
- Метод значительно сокращает время цикла обратной связи при разработке поисковых систем по сравнению с ручным тестированием.
- Использование LLM-судей позволяет масштабировать оценку на тысячи поисковых запросов без привлечения внешних асессоров.