Исследователи обнаружили, что метод обучения on-policy self-distillation, использующий одну модель в качестве учителя и ученика, ведет к снижению разнообразия генераций. Несмотря на рост точности pass@1, модель теряет способность к вариативности ответов, что делает бесполезным увеличение количества попыток (pass@k) для улучшения итогового результата. Проблема кроется в накоплении ошибок при обучении на собственных демонстрациях.
Метод самодистилляции предполагает, что модель обучается на основе правильных примеров, которые она сама же и генерирует. Хотя это позволяет эффективно передавать знания на уровне токенов, процесс приводит к «схлопыванию» распределения вероятностей. В результате модель начинает выдавать идентичные или очень похожие ответы, что критически важно для задач, где требуется широкий охват возможных решений или поиск оптимального пути в пространстве рассуждений.
Авторы работы связывают этот эффект с накоплением систематических искажений в процессе итеративного обучения. Когда модель постоянно учится на собственных предсказаниях, она начинает воспроизводить одни и те же паттерны, игнорируя альтернативные способы решения задачи. Это ограничивает эффективность стратегий, основанных на сэмплировании множества вариантов, таких как Best-of-N или методы поиска по дереву, которые полагаются на разнообразие генераций для повышения качества.
Ключевые факты
- Метод on-policy self-distillation повышает точность pass@1, но снижает общее разнообразие сгенерированных ответов.
- Увеличение количества попыток (pass@k) перестает приносить прирост точности из-за высокой корреляции между генерациями.
- Проблема вызвана накоплением ошибок в процессе обучения, когда модель становится слишком зависимой от собственных демонстраций.
- Исследование подчеркивает необходимость баланса между точностью на конкретном примере и сохранением широкого пространства поиска для сложных задач.