arXiv · 25.06.2026 ·Машинное обучение

Метод RiVER позволяет обучать LLM с подкреплением без эталонных ответов

Исследователи представили фреймворк RiVER (Ranking-induced VERifiable), который позволяет обучать языковые модели методом обучения с подкреплением (RL) в задачах, где отсутствуют заранее известные эталонные решения. Вместо сравнения с «золотым стандартом» система использует ранжирование ответов для оптимизации, что расширяет возможности применения RL в областях, где оценка качества результата носит субъективный или эвристический характер.

Традиционные подходы к обучению с подкреплением (RLVR) сильно зависят от наличия верифицируемых ответов, что ограничивает их использование в творческих или сложных аналитических задачах. Новый метод обходит это ограничение, внедряя механизм ранжирования, который позволяет модели обучаться на основе относительного качества сгенерированных вариантов. Это открывает путь к более эффективной донастройке моделей в сценариях, где невозможно формализовать «правильный» ответ, но можно оценить предпочтительность одного результата над другим.

Применение RiVER позволяет повысить производительность моделей в задачах, требующих сложного рассуждения или генерации контента, где критерии успеха определяются через балльную оценку или ранжирование. Метод демонстрирует, что для улучшения качества рассуждений модели не обязательно иметь доступ к единственному верному решению, достаточно эффективного механизма оценки качества вывода.

Ключевые факты

Фреймворк RiVER использует ранжирование ответов вместо жестких эталонных решений для обучения с подкреплением.
Метод позволяет применять RL в задачах, где «ground-truth» отсутствует или его невозможно вычислить.
Подход ориентирован на оптимизацию моделей через оценку качества сгенерированных вариантов в сложных задачах.
Разработка расширяет возможности дообучения LLM в областях, где оценка результатов основана на экспертных или эвристических баллах.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука Исследование факторов эффективности обучения с подкреплением для рассуждений LLM Исследователи проанализировали механизмы обучения с подкреплением на основе верифицируемых наград (RLVR), которые активно применяются для улучшения логических способностей больших языковых моделей. Несмотря на популярность метода, текущие подходы к его реализации часто опираются на эмпирические догадки, что приводит к разрозненным и порой противоречивым алгоритмическим решениям. Авторы работы систематизировали ключевые факторы, влияющие на стабильность и результативность процесса обучения. arXiv · Обучение и дообучение Новый метод обучения LLM через промежуточное RL Исследователи предложили новый подход к обучению языковых моделей (LLM) с использованием reinforcement learning (RL) на промежуточном этапе обучения. В статье, опубликованной на arXiv, авторы показывают, что традиционные методы RL с редкими наградами (sparse reward RL) сильно зависят от начальной подготовки модели. arXiv · Оценка и бенчмарки BINEVAL: новый подход к интерпретируемой оценке LLM через бинарные вопросы Исследователи представили BINEVAL — фреймворк для оценки качества ответов LLM, который заменяет непрозрачные балльные системы на серию атомарных бинарных вопросов. Такой подход позволяет точно локализовать ошибки модели, делая процесс оценки более интерпретируемым и пригодным для автоматизированного самообучения, что решает проблему низкой корреляции традиционных метрик с человеческими суждениями при работе с открытыми генеративными задачами. Hacker News · Инфраструктура для агентов RubyLLM: унифицированный фреймворк для интеграции LLM в Ruby-приложения RubyLLM — это новый фреймворк, предоставляющий единый интерфейс для взаимодействия с ведущими поставщиками языковых моделей. Инструмент позволяет разработчикам на Ruby интегрировать возможности ИИ в свои проекты, абстрагируясь от различий в API разных провайдеров. Решение упрощает процесс подключения LLM, обеспечивая стандартизированный подход к работе с генеративным контентом и агентными функциями в экосистеме Ruby. arXiv · Машинное обучение Исследование: как устранить избыточное рассуждение в LLM Учёные изучили проблему избыточного рассуждения (overthinking) в языковых моделях, когда они продолжают генерировать ненужные шаги после нахождения правильного ответа. Это явление особенно заметно в задачах, требующих длинных цепочек рассуждений (chain-of-thought reasoning). Hacker News · Оценка и бенчмарки Оценка уверенности LLM-судей эффективнее простого сравнения ответов Исследователи предложили новый подход к оценке качества работы LLM-судей, которые используются для автоматического тестирования других моделей. Традиционная методика опирается на «согласие» (agreement) — совпадение оценок ИИ с мнением человека или другой эталонной модели. Однако этот показатель часто оказывается обманчивым, так как модели могут давать одинаковые ответы по разным причинам, включая случайные ошибки или предвзятость к определенным формулировкам. arXiv · Машинное обучение Метод MAST для точечного удаления нежелательных навыков рассуждения в LLM Исследователи представили метод MAST (Mechanism-Aligned Selective Targeting), предназначенный для избирательного удаления специфических паттернов рассуждения, привитых моделям через обучение с подкреплением (RLVR). Традиционные подходы к «забыванию» (unlearning) часто приводят к деградации общих способностей модели из-за полнопараметрических обновлений. Новый метод позволяет изолировать и корректировать только те веса, которые отвечают за конкретные логические цепочки, минимизируя побочный ущерб для базовых знаний модели. arXiv · Оценка и бенчмарки Новый метод борьбы с предвзятостью LLM-судей при оценке качества ответов Исследователи представили новый подход к оценке больших языковых моделей, использующих другие LLM в качестве «судей». Текущие системы автоматической оценки часто страдают от систематических искажений, не связанных с качеством контента. Наиболее выраженной проблемой является «предвзятость к многословию»: модели склонны завышать оценки длинным ответам, даже если они менее точны или информативны, чем краткие варианты. The latest research from Google · Исследования и наука Исследование Google: как цепочки рассуждений улучшают извлечение знаний из LLM Исследователи Google представили метод, который значительно повышает точность извлечения фактов из внутренней памяти больших языковых моделей. Вместо прямого запроса модель сначала генерирует цепочку рассуждений, что позволяет ей эффективнее активировать параметрические знания. Этот подход помогает преодолеть ограничения стандартных моделей при ответе на вопросы, требующие глубокого контекстного понимания или редких данных. arXiv · Обучение и дообучение Использование RL-обучения для улучшения агентных способностей LLM Исследователи обнаружили, что стандартное обучение с подкреплением (RL) при дообучении моделей уже содержит скрытый потенциал для улучшения агентных навыков. Авторы работы доказывают, что этот процесс позволяет эффективно оценивать пошаговые действия моделей без необходимости в сложных внешних системах вознаграждения, что критически важно для решения долгосрочных задач в стохастических средах, где традиционные методы аннотирования данных практически не работают.

← Все материалы