arXiv · 28.06.2026 ·Машинное обучение

Новый метод Process Advantage Signal Shaping для обучения LLM с рассуждениями

Исследователи представили метод Process Advantage Signal Shaping (PASS), направленный на оптимизацию обучения LLM с использованием подкрепления (RL). Новый подход решает проблему нестабильности сигналов при использовании GRPO, позволяя более эффективно интегрировать пошаговые награды (PRM) в процесс обучения моделей, склонных к сложным логическим рассуждениям, что повышает точность итоговых ответов.

В основе метода лежит переработка способа формирования сигналов преимущества (advantage signals) при обучении моделей с использованием процесса надзора. Традиционные подходы, такие как GRPO, часто сталкиваются с конфликтами между групповой стандартизацией и плотными пошаговыми наградами, что приводит к деградации качества обучения. PASS выступает в роли промежуточного слоя, который гармонизирует эти сигналы, делая процесс обучения более стабильным и предсказуемым.

Авторы демонстрируют, что предложенная архитектура является парадигмально-агностической, то есть может быть внедрена в существующие пайплайны обучения без необходимости радикальной смены инфраструктуры. Это позволяет разработчикам точнее настраивать модели на выполнение многошаговых задач, где критически важна корректность каждого промежуточного вывода, а не только финальный результат.

Ключевые факты

Метод PASS разработан для улучшения процесса обучения LLM с подкреплением (RL) через пошаговый надзор.
Решение устраняет конфликты между групповой стандартизацией преимуществ в GRPO и плотными сигналами от моделей наград (PRM).
Подход является универсальным промежуточным слоем (middleware), совместимым с различными архитектурами LLM-резонеров.
Технология направлена на повышение качества логических рассуждений моделей за счет более точного распределения наград на каждом этапе генерации текста.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука Исследование факторов эффективности обучения с подкреплением для рассуждений LLM Исследователи проанализировали механизмы обучения с подкреплением на основе верифицируемых наград (RLVR), которые активно применяются для улучшения логических способностей больших языковых моделей. Несмотря на популярность метода, текущие подходы к его реализации часто опираются на эмпирические догадки, что приводит к разрозненным и порой противоречивым алгоритмическим решениям. Авторы работы систематизировали ключевые факторы, влияющие на стабильность и результативность процесса обучения. Hacker News · Оценка и бенчмарки Новые методы повышения точности LLM как судей в оценке моделей Исследователи представили усовершенствованные подходы к использованию LLM в качестве «судей» для автоматизированной оценки качества ответов других моделей. Авторы статьи систематизировали методы минимизации предвзятости и повышения корреляции оценок ИИ с человеческими предпочтениями, предложив новые стратегии промптинга и калибровки, которые позволяют значительно точнее определять качество генерации в сложных задачах без привлечения экспертов-людей. Hacker News · Исследования и наука HRM-Text: новый подход к эффективному дообучению языковых моделей Исследователи представили HRM-Text — метод повышения эффективности предобучения языковых моделей, который выходит за рамки простого увеличения вычислительных мощностей. Авторы предлагают оптимизированный подход к обработке данных и архитектурным изменениям, позволяющий достичь высокой производительности при меньших затратах ресурсов. Это значимый шаг в сторону оптимизации обучения LLM, делающий создание мощных моделей более доступным и экономически оправданным. arXiv · Машинное обучение Исследование: как устранить избыточное рассуждение в LLM Учёные изучили проблему избыточного рассуждения (overthinking) в языковых моделях, когда они продолжают генерировать ненужные шаги после нахождения правильного ответа. Это явление особенно заметно в задачах, требующих длинных цепочек рассуждений (chain-of-thought reasoning). arXiv · Обучение и дообучение Использование RL-обучения для улучшения агентных способностей LLM Исследователи обнаружили, что стандартное обучение с подкреплением (RL) при дообучении моделей уже содержит скрытый потенциал для улучшения агентных навыков. Авторы работы доказывают, что этот процесс позволяет эффективно оценивать пошаговые действия моделей без необходимости в сложных внешних системах вознаграждения, что критически важно для решения долгосрочных задач в стохастических средах, где традиционные методы аннотирования данных практически не работают. arXiv · Исследования и наука Новый пайплайн для минимизации ошибок ИИ в критически важных задачах Исследователи представили метод борьбы с «предвзятостью вмешательства» в ИИ-агентах, работающих в сферах с высокими рисками, таких как образование. Новый пайплайн сочетает точность классического машинного обучения с гибкостью RAG-систем, позволяя агентам принимать детерминированные решения и избегать ненужных рекомендаций, которые часто возникают при использовании стандартных LLM в режиме zero-shot. arXiv · Обучение и дообучение Новый метод обучения LLM через промежуточное RL Исследователи предложили новый подход к обучению языковых моделей (LLM) с использованием reinforcement learning (RL) на промежуточном этапе обучения. В статье, опубликованной на arXiv, авторы показывают, что традиционные методы RL с редкими наградами (sparse reward RL) сильно зависят от начальной подготовки модели. arXiv · Исследования и наука MIThinker: оптимизация рассуждений LLM для мотивационного консультирования Исследователи представили MIThinker — специализированный фреймворк для улучшения работы ИИ-агентов в сфере мотивационного консультирования. В отличие от стандартных моделей, MIThinker использует механизм «мыслительного процесса» (reasoning), который принудительно выравнивает внутренние рассуждения модели с техниками мотивационного интервьюирования. Это позволяет агентам генерировать более эмпатичные и терапевтически точные ответы, соответствующие профессиональным стандартам психологической поддержки. arXiv · Машинное обучение Автоматизация формирования наград в обучении с подкреплением через VLM Исследователи представили метод автоматизации формирования потенциальных наград (PBRS) в обучении с подкреплением с помощью Vision Language Models (VLM). Подход решает проблему разреженных сигналов вознаграждения, позволяя агентам эффективнее исследовать среду без риска «взлома» функции награды, характерного для ручного проектирования вспомогательных сигналов. Метод использует визуально-языковые модели для оценки прогресса выполнения задачи в реальном времени. arXiv · Исследования и наука Использование LLM для прогнозирования сложности заданий через когнитивные эпизоды Исследователи представили метод оценки сложности учебных заданий для человека, основанный на анализе цепочек рассуждений больших языковых моделей. Вместо традиционной калибровки по результатам тестирования, подход фокусируется на «когнитивных эпизодах» — ключевых этапах логического вывода модели. Это позволяет не только точнее предсказывать уровень сложности, но и интерпретировать, какие именно мыслительные процессы вызывают затруднения у учащихся.

← Все материалы