arXiv · 28.06.2026 ·Машинное обучение

Исследование теоретических основ алгоритма GRPO в обучении моделей

Исследователи проанализировали алгоритм Group Relative Policy Optimization (GRPO), который исключает использование обученного критика в PPO, заменяя его средним значением наград группы прогонов. Авторы работы доказали, что при использовании только итоговой награды за весь ответ возникает проблема распределения кредита: каждый токен получает одинаковое преимущество, что ведет к деградации обучения на уровне отдельных токенов.

В статье приводится строгий вывод GRPO из теоремы о градиенте стратегии. Анализ показывает, что упрощенная архитектура без критика сталкивается с разреженностью градиентов и риском коллапса ранга. Это ограничивает способность модели эффективно обучаться на сложных задачах, где важно понимать вклад каждого конкретного токена в итоговый результат, а не только общую оценку генерации.

Результаты исследования подчеркивают фундаментальные ограничения текущих подходов к оптимизации стратегий в LLM. Авторы предлагают математическое обоснование того, почему отказ от критика может приводить к потере точности в задачах, требующих пошагового рассуждения, и указывают на необходимость более тонких механизмов оценки вклада токенов для улучшения качества генерации моделей.

Ключевые факты

GRPO заменяет обученного критика в PPO на среднее значение наград группы прогонов для упрощения процесса обучения.
Выявлена проблема «недифференцированного кредита», при которой все токены в ответе получают идентичное преимущество при использовании только итоговой награды.
Теоретический анализ подтверждает возникновение разреженности градиентов и коллапса ранга при использовании GRPO.
Работа доказывает, что текущая реализация GRPO не позволяет эффективно распределять кредит между отдельными токенами в процессе обучения.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Математические риски нелинейной агрегации градиентов в обучении моделей Исследователи проанализировали влияние нелинейной агрегации градиентов на сходимость и обобщающую способность моделей. В современных пайплайнах, включающих адаптивность, приватность и робастность, стандартные гарантии выпуклого обучения часто нарушаются из-за потери монотонности оператора обновления. Работа доказывает, что нелинейные методы агрегации могут приводить к нестабильности обучения, что требует пересмотра подходов к оптимизации сложных систем. arXiv · Машинное обучение Исследование: как устранить избыточное рассуждение в LLM Учёные изучили проблему избыточного рассуждения (overthinking) в языковых моделях, когда они продолжают генерировать ненужные шаги после нахождения правильного ответа. Это явление особенно заметно в задачах, требующих длинных цепочек рассуждений (chain-of-thought reasoning). arXiv · Машинное обучение Новый метод Process Advantage Signal Shaping для обучения LLM с рассуждениями Исследователи представили метод Process Advantage Signal Shaping (PASS), направленный на оптимизацию обучения LLM с использованием подкрепления (RL). Новый подход решает проблему нестабильности сигналов при использовании GRPO, позволяя более эффективно интегрировать пошаговые награды (PRM) в процесс обучения моделей, склонных к сложным логическим рассуждениям, что повышает точность итоговых ответов. arXiv · Машинное обучение Исследование влияния позиционного смещения в методах дистилляции моделей Исследователи проанализировали эффективность метода On-Policy Distillation (OPD), который используется для ускорения обучения моделей с подкреплением через пошаговый контроль со стороны «учителя». Стандартный подход предполагает равномерное распределение весов для всех токенов при расчете функции потерь, однако новая работа доказывает, что такой метод не учитывает накопленные ошибки в длинных последовательностях. arXiv · Машинное обучение Новый метод обучения с подкреплением KCPR для оптимизации стратегий Исследователи представили фреймворк KL-Coupled Policy Regularization (KCPR), предназначенный для обучения с подкреплением в условиях Reward-Punishment (RPRL). В отличие от классических подходов, где стратегии поощрения и наказания оптимизируются раздельно, KCPR обеспечивает их прямое взаимодействие. Это позволяет агентам более эффективно балансировать между достижением целей и избеганием штрафных санкций в сложных динамических средах. arXiv · Модели и релизы Почему самоулучшающиеся модели могут деградировать на новых задачах Исследователи из Arxiv выявили проблему в популярном подходе к самоулучшению визуально-языковых моделей (VLM), основанном на DPO (Direct Preference Optimization). В таких системах «верфикатор» оценивает генерации модели, а на основе лучших и худших примеров происходит обучение. Авторы показали, что этот метод может привести к деградации модели на новых задачах, несмотря на улучшение на обучающих данных. arXiv · Машинное обучение Новый метод обучения классификаторов в условиях стратегического поведения пользователей Исследователи представили метод обучения нелинейных классификаторов, устойчивых к стратегическим манипуляциям со стороны пользователей. Ранее подобные задачи ограничивались линейными моделями из-за высокой вычислительной сложности. Новый подход позволяет эффективно оптимизировать классификаторы, когда пользователи пытаются изменить свои данные, чтобы повлиять на решение системы, сохраняя при этом точность и предсказуемость модели в динамической среде. arXiv · Машинное обучение Новый метод оптимизации градиента для ускорения обучения нейросетей Исследователи представили метод Stochastic Gradient Optimization with Model-Assisted Sampling, направленный на снижение дисперсии при оценке стохастического градиента. Новый подход позволяет эффективнее балансировать между скоростью сходимости и качеством обобщения моделей, минимизируя шум, неизбежно возникающий при использовании стандартных мини-пакетных методов обучения в глубоком обучении. arXiv · Машинное обучение Generative Robust Optimisation: новый подход к оптимизации в условиях неопределенности Исследователи представили метод Generative Robust Optimisation (GRO), который меняет подход к классической задаче робастной оптимизации. Традиционные методы опираются на жесткие геометрические ограничения для описания неопределенности, что не позволяет эффективно учитывать сложные зависимости в реальных данных. Авторы предлагают использовать глубокие генеративные модели для определения множеств неопределенности, где границы задаются образом нейросетевого декодера. arXiv · Исследования и наука Математическая эквивалентность подходов Blackwell Approachability и Gradient Equilibrium Исследователи доказали математическую эквивалентность между Blackwell Approachability и концепцией Gradient Equilibrium (GEQ). Это открытие объединяет теорию игр с онлайн-оптимизацией, позволяя использовать методы минимизации сожаления для решения задач, где ранее требовались специализированные подходы. Результат упрощает анализ алгоритмов в динамических средах, включая задачи онлайн-конформного прогнозирования и поиска стационарных точек в сложных системах.

← Все материалы