Исследователи представили метод Process Advantage Signal Shaping (PASS), направленный на оптимизацию обучения LLM с использованием подкрепления (RL). Новый подход решает проблему нестабильности сигналов при использовании GRPO, позволяя более эффективно интегрировать пошаговые награды (PRM) в процесс обучения моделей, склонных к сложным логическим рассуждениям, что повышает точность итоговых ответов.

В основе метода лежит переработка способа формирования сигналов преимущества (advantage signals) при обучении моделей с использованием процесса надзора. Традиционные подходы, такие как GRPO, часто сталкиваются с конфликтами между групповой стандартизацией и плотными пошаговыми наградами, что приводит к деградации качества обучения. PASS выступает в роли промежуточного слоя, который гармонизирует эти сигналы, делая процесс обучения более стабильным и предсказуемым.

Авторы демонстрируют, что предложенная архитектура является парадигмально-агностической, то есть может быть внедрена в существующие пайплайны обучения без необходимости радикальной смены инфраструктуры. Это позволяет разработчикам точнее настраивать модели на выполнение многошаговых задач, где критически важна корректность каждого промежуточного вывода, а не только финальный результат.

Ключевые факты

  • Метод PASS разработан для улучшения процесса обучения LLM с подкреплением (RL) через пошаговый надзор.
  • Решение устраняет конфликты между групповой стандартизацией преимуществ в GRPO и плотными сигналами от моделей наград (PRM).
  • Подход является универсальным промежуточным слоем (middleware), совместимым с различными архитектурами LLM-резонеров.
  • Технология направлена на повышение качества логических рассуждений моделей за счет более точного распределения наград на каждом этапе генерации текста.