arXiv · 02.07.2026 ·Исследования и наука

Исследование Purified OPSD: почему самодистилляция вредит длинным цепочкам рассуждений

Исследователи проанализировали метод on-policy self-distillation (OPSD), используемый для улучшения логических способностей LLM через обучение на собственных траекториях с подсказками «учителя». Выяснилось, что при работе с длинными цепочками рассуждений (long-CoT) этот подход не только не дает значимого прироста производительности, но и дестабилизирует процесс обучения, приводя к деградации способности модели к глубокому мышлению.

Основная проблема заключается в том, что стандартная процедура OPSD навязывает модели жесткие ограничения на уровне токенов. В задачах, требующих многоступенчатых рассуждений, это лишает модель гибкости в поиске альтернативных путей решения. Авторы работы предлагают альтернативный метод — Purified OPSD, который фильтрует обучающие данные, исключая шумные или неэффективные траектории, что позволяет сохранить логическую связность модели.

Метод Purified OPSD фокусируется на отборе только тех траекторий, где модель приходит к верному ответу через логически обоснованные шаги. Это предотвращает «заучивание» ошибок и позволяет студенческой модели перенимать только качественные паттерны мышления, не теряя при этом способности к генерации длинных и сложных цепочек рассуждений, характерных для современных моделей с глубоким планированием.

Ключевые факты

OPSD при использовании в моделях с длинными цепочками рассуждений (long-CoT) показывает лишь маргинальные улучшения или приводит к деградации качества.
Метод Purified OPSD вводит этап фильтрации траекторий, что позволяет избежать негативного влияния «шумных» данных на процесс обучения.
Исследование подтверждает, что прямое копирование токенов учителя на длинных последовательностях ограничивает способность модели к самостоятельному поиску решений.
Новый подход позволяет повысить стабильность обучения, сохраняя при этом способность модели к сложным логическим выводам.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Обучение и дообучение DemoPSD: новый метод обучения LLM через модуляцию разногласий Исследователи представили метод DemoPSD (Disagreement-Modulated Policy Self-Distillation), направленный на улучшение процесса самодистилляции больших языковых моделей. Новый подход решает проблему переобучения на паттернах внутри домена, возникающую при использовании стандартной дистилляции, где модель выступает одновременно учителем и учеником. Метод динамически регулирует влияние учительских подсказок, повышая качество логических рассуждений модели. arXiv · Обучение и дообучение DOPD: новый метод дистилляции моделей с использованием привилегированной информации Исследователи представили метод Dual On-policy Distillation (DOPD), направленный на повышение эффективности обучения компактных моделей через дистилляцию знаний. Подход решает проблему потери качества при использовании привилегированной информации, разделяя процессы обучения учителя и ученика. Это позволяет передавать более точные сигналы на уровне токенов, улучшая производительность моделей без необходимости в чрезмерных вычислительных ресурсах. arXiv · Машинное обучение Исследование влияния позиционного смещения в методах дистилляции моделей Исследователи проанализировали эффективность метода On-Policy Distillation (OPD), который используется для ускорения обучения моделей с подкреплением через пошаговый контроль со стороны «учителя». Стандартный подход предполагает равномерное распределение весов для всех токенов при расчете функции потерь, однако новая работа доказывает, что такой метод не учитывает накопленные ошибки в длинных последовательностях. arXiv · Машинное обучение Новый метод обучения dLLMs через самодистилляцию Исследователи предложили новый подход к обучению диффузионных языковых моделей (dLLMs) — on-policy self-distillation (OPSD). Этот метод уже показал свою эффективность для обычных языковых моделей, но его применение к dLLMs оставалось неизученным. arXiv · Исследования и наука Риски самодистилляции в обучении LLM: снижение разнообразия ответов Исследователи обнаружили, что метод обучения on-policy self-distillation, использующий одну модель в качестве учителя и ученика, ведет к снижению разнообразия генераций. Несмотря на рост точности pass@1, модель теряет способность к вариативности ответов, что делает бесполезным увеличение количества попыток (pass@k) для улучшения итогового результата. Проблема кроется в накоплении ошибок при обучении на собственных демонстрациях. arXiv · Исследования и наука Метод PHF для улучшения обучения моделей рассуждения через самодистилляцию Исследователи представили метод Privileged Hidden Flow (PHF), оптимизирующий процесс обучения моделей рассуждения с помощью самодистилляции. В отличие от стандартных подходов, фокусирующихся только на выходных токенах, PHF напрямую контролирует внутренние скрытые состояния модели, сопоставляя их с «привилегированным» учителем, имеющим доступ к верифицированным решениям. Это позволяет эффективнее передавать логику рассуждений и повышать точность генерации ответов. arXiv · Обучение и дообучение Как on-policy distillation меняет параметры моделей Исследователи из MIT и DeepMind изучили влияние on-policy distillation (OPD) на параметры моделей. Этот метод сочетает траектории студента, полученные в реальных условиях, с плотным супервизором от учителя. Авторы анализировали несколько языковых и визуально-языковых моделей и выявили два ключевых результата. arXiv · Машинное обучение Новый метод обучения моделей рассуждения через рубрицированную самодистилляцию Исследователи представили метод обучения языковых моделей, который меняет подход к формированию навыков логического вывода. Традиционное дообучение моделей часто опирается на цепочки рассуждений (chain-of-thought), которые требуют дорогостоящей разметки человеком. Такие данные нередко содержат ошибки или неполные логические переходы, что негативно сказывается на качестве обучения, даже если итоговый ответ модели оказывается верным. arXiv · Модели и релизы Почему самоулучшающиеся модели могут деградировать на новых задачах Исследователи из Arxiv выявили проблему в популярном подходе к самоулучшению визуально-языковых моделей (VLM), основанном на DPO (Direct Preference Optimization). В таких системах «верфикатор» оценивает генерации модели, а на основе лучших и худших примеров происходит обучение. Авторы показали, что этот метод может привести к деградации модели на новых задачах, несмотря на улучшение на обучающих данных. arXiv · Машинное обучение Метод MAST для точечного удаления нежелательных навыков рассуждения в LLM Исследователи представили метод MAST (Mechanism-Aligned Selective Targeting), предназначенный для избирательного удаления специфических паттернов рассуждения, привитых моделям через обучение с подкреплением (RLVR). Традиционные подходы к «забыванию» (unlearning) часто приводят к деградации общих способностей модели из-за полнопараметрических обновлений. Новый метод позволяет изолировать и корректировать только те веса, которые отвечают за конкретные логические цепочки, минимизируя побочный ущерб для базовых знаний модели.

← Все материалы