Исследователи проанализировали метод on-policy self-distillation (OPSD), используемый для улучшения логических способностей LLM через обучение на собственных траекториях с подсказками «учителя». Выяснилось, что при работе с длинными цепочками рассуждений (long-CoT) этот подход не только не дает значимого прироста производительности, но и дестабилизирует процесс обучения, приводя к деградации способности модели к глубокому мышлению.

Основная проблема заключается в том, что стандартная процедура OPSD навязывает модели жесткие ограничения на уровне токенов. В задачах, требующих многоступенчатых рассуждений, это лишает модель гибкости в поиске альтернативных путей решения. Авторы работы предлагают альтернативный метод — Purified OPSD, который фильтрует обучающие данные, исключая шумные или неэффективные траектории, что позволяет сохранить логическую связность модели.

Метод Purified OPSD фокусируется на отборе только тех траекторий, где модель приходит к верному ответу через логически обоснованные шаги. Это предотвращает «заучивание» ошибок и позволяет студенческой модели перенимать только качественные паттерны мышления, не теряя при этом способности к генерации длинных и сложных цепочек рассуждений, характерных для современных моделей с глубоким планированием.

Ключевые факты

  • OPSD при использовании в моделях с длинными цепочками рассуждений (long-CoT) показывает лишь маргинальные улучшения или приводит к деградации качества.
  • Метод Purified OPSD вводит этап фильтрации траекторий, что позволяет избежать негативного влияния «шумных» данных на процесс обучения.
  • Исследование подтверждает, что прямое копирование токенов учителя на длинных последовательностях ограничивает способность модели к самостоятельному поиску решений.
  • Новый подход позволяет повысить стабильность обучения, сохраняя при этом способность модели к сложным логическим выводам.