Исследователи представили RECOM (Reddit Evaluation for Correspondence of Models) — новый метод оценки качества генеративных моделей, предназначенный для задач, где ответы носят субъективный или дискуссионный характер. Авторы работы указывают на фундаментальное противоречие в существующих автоматических метриках, которые одновременно пытаются оценить содержательную точность (валидность) и способность системы ранжировать модели по уровню их эффективности (дискриминационная способность).
В ходе анализа выяснилось, что стандартные метрики часто не справляются с задачами, где нет единственно верного ответа, а оценка зависит от контекста и аргументации. В таких случаях поверхностное совпадение текста, на котором базируются многие классические алгоритмы, вступает в конфликт с реальной содержательной ценностью ответа. Это приводит к тому, что метрики могут ошибочно отдавать предпочтение менее качественным системам, которые просто лучше имитируют статистические закономерности обучающей выборки.
Метод RECOM направлен на устранение этого разрыва, предлагая более сбалансированный подход к оценке моделей в условиях открытых вопросов. Использование данных из Reddit позволило исследователям создать бенчмарк, который лучше отражает реальные предпочтения пользователей и качество аргументации в ответах ИИ. Разработка помогает точнее определять, какие модели действительно справляются с генерацией осмысленного контента, а не просто подстраиваются под метрики поверхностного сходства.