Исследователи представили метод Privileged Hidden Flow (PHF), оптимизирующий процесс обучения моделей рассуждения с помощью самодистилляции. В отличие от стандартных подходов, фокусирующихся только на выходных токенах, PHF напрямую контролирует внутренние скрытые состояния модели, сопоставляя их с «привилегированным» учителем, имеющим доступ к верифицированным решениям. Это позволяет эффективнее передавать логику рассуждений и повышать точность генерации ответов.
Традиционные методы обучения с подкреплением (on-policy) часто ограничиваются лишь минимизацией расхождений в распределении вероятностей на выходе. Однако такой подход не учитывает промежуточные этапы «мышления» модели, что может приводить к ошибкам в длинных цепочках рассуждений. Метод PHF вводит дополнительный слой контроля, который направляет скрытые представления модели в процессе генерации, заставляя её следовать логике эталонного решения на каждом шаге.
Применение данного метода позволяет модели лучше усваивать структуру сложных задач, где важен не только финальный результат, но и корректность промежуточных выводов. Авторы отмечают, что прямое воздействие на скрытые состояния (hidden states) через механизм привилегированного потока данных значительно сокращает количество логических сбоев при обучении на собственных выборках модели.
Ключевые факты
- Метод PHF (Privileged Hidden Flow) направлен на улучшение обучения моделей рассуждения через прямое воздействие на скрытые состояния.
- В отличие от классической самодистилляции, подход контролирует внутренние вычисления, а не только итоговое распределение токенов.
- Использование привилегированного учителя позволяет модели обучаться на верифицированных эталонных решениях в процессе on-policy обучения.
- Метод снижает вероятность логических ошибок за счет более глубокой интеграции контекста задачи в процесс генерации.