Исследователи проанализировали алгоритм Group Relative Policy Optimization (GRPO), который исключает использование обученного критика в PPO, заменяя его средним значением наград группы прогонов. Авторы работы доказали, что при использовании только итоговой награды за весь ответ возникает проблема распределения кредита: каждый токен получает одинаковое преимущество, что ведет к деградации обучения на уровне отдельных токенов.

В статье приводится строгий вывод GRPO из теоремы о градиенте стратегии. Анализ показывает, что упрощенная архитектура без критика сталкивается с разреженностью градиентов и риском коллапса ранга. Это ограничивает способность модели эффективно обучаться на сложных задачах, где важно понимать вклад каждого конкретного токена в итоговый результат, а не только общую оценку генерации.

Результаты исследования подчеркивают фундаментальные ограничения текущих подходов к оптимизации стратегий в LLM. Авторы предлагают математическое обоснование того, почему отказ от критика может приводить к потере точности в задачах, требующих пошагового рассуждения, и указывают на необходимость более тонких механизмов оценки вклада токенов для улучшения качества генерации моделей.

Ключевые факты

  • GRPO заменяет обученного критика в PPO на среднее значение наград группы прогонов для упрощения процесса обучения.
  • Выявлена проблема «недифференцированного кредита», при которой все токены в ответе получают идентичное преимущество при использовании только итоговой награды.
  • Теоретический анализ подтверждает возникновение разреженности градиентов и коллапса ранга при использовании GRPO.
  • Работа доказывает, что текущая реализация GRPO не позволяет эффективно распределять кредит между отдельными токенами в процессе обучения.