Исследователи проанализировали ограничения парадигмы LLM-as-a-Judge при работе с многоязычными данными и редкими языками. Хотя использование нейросетей для оценки качества генерации стало стандартом, их эффективность резко падает за пределами английского языка. Авторы работы предлагают рекомендации по адаптации таких систем, чтобы минимизировать предвзятость и повысить точность оценки в условиях нехватки данных для обучения моделей-судей.

Традиционные метрики оценки текста постепенно уступают место LLM, которые лучше коррелируют с человеческими суждениями. Однако текущие модели-судьи демонстрируют неравномерное качество работы: они часто отдают предпочтение ответам на английском языке или демонстрируют низкую точность при анализе грамматических и культурных нюансов редких языков. Это создает риск систематических ошибок при автоматизированном тестировании глобальных ИИ-продуктов.

Для решения проблемы исследователи предлагают внедрять методы калибровки и специализированные промпты, учитывающие лингвистические особенности конкретных регионов. Также подчеркивается необходимость создания новых наборов данных для валидации, которые включают не только популярные языки, но и диалекты с ограниченным присутствием в обучающих выборках. Это позволит сделать процесс оценки более объективным и инклюзивным для международного рынка.

Ключевые факты

  • LLM-as-a-Judge является доминирующим методом оценки генеративных моделей из-за высокой корреляции с человеческой оценкой.
  • Основная проблема заключается в «языковой предвзятости», при которой модели-судьи хуже справляются с задачами на языках с малым объемом обучающих данных.
  • Исследование указывает на необходимость разработки специфических бенчмарков для оценки качества моделей в мультиязычной среде.
  • Предложенные рекомендации включают методы калибровки промптов для снижения культурной и лингвистической предвзятости судейских моделей.