Исследователи представили фреймворк RiVER (Ranking-induced VERifiable), который позволяет обучать языковые модели методом обучения с подкреплением (RL) в задачах, где отсутствуют заранее известные эталонные решения. Вместо сравнения с «золотым стандартом» система использует ранжирование ответов для оптимизации, что расширяет возможности применения RL в областях, где оценка качества результата носит субъективный или эвристический характер.
Традиционные подходы к обучению с подкреплением (RLVR) сильно зависят от наличия верифицируемых ответов, что ограничивает их использование в творческих или сложных аналитических задачах. Новый метод обходит это ограничение, внедряя механизм ранжирования, который позволяет модели обучаться на основе относительного качества сгенерированных вариантов. Это открывает путь к более эффективной донастройке моделей в сценариях, где невозможно формализовать «правильный» ответ, но можно оценить предпочтительность одного результата над другим.
Применение RiVER позволяет повысить производительность моделей в задачах, требующих сложного рассуждения или генерации контента, где критерии успеха определяются через балльную оценку или ранжирование. Метод демонстрирует, что для улучшения качества рассуждений модели не обязательно иметь доступ к единственному верному решению, достаточно эффективного механизма оценки качества вывода.
Ключевые факты
- Фреймворк RiVER использует ранжирование ответов вместо жестких эталонных решений для обучения с подкреплением.
- Метод позволяет применять RL в задачах, где «ground-truth» отсутствует или его невозможно вычислить.
- Подход ориентирован на оптимизацию моделей через оценку качества сгенерированных вариантов в сложных задачах.
- Разработка расширяет возможности дообучения LLM в областях, где оценка результатов основана на экспертных или эвристических баллах.