Исследователи представили метод Dual On-policy Distillation (DOPD), направленный на повышение эффективности обучения компактных моделей через дистилляцию знаний. Подход решает проблему потери качества при использовании привилегированной информации, разделяя процессы обучения учителя и ученика. Это позволяет передавать более точные сигналы на уровне токенов, улучшая производительность моделей без необходимости в чрезмерных вычислительных ресурсах.

Традиционные методы дистилляции часто сталкиваются с трудностями при попытке внедрить дополнительные данные в процесс обучения, что приводит к рассогласованию между учителем и учеником. DOPD вводит механизм, который позволяет эффективно использовать «привилегированные» данные (например, скрытые состояния или дополнительные контекстные признаки), не нарушая стабильность обучения. Это достигается за счет разделения потоков данных, где ученик обучается на траекториях, сгенерированных в процессе собственного взаимодействия, что обеспечивает более качественную аппроксимацию поведения учителя.

Данный метод демонстрирует значительный потенциал для создания специализированных моделей, которые сохраняют высокую точность при меньшем количестве параметров. Использование плотных токеновых сигналов вместо простых вероятностных распределений позволяет ученику быстрее адаптироваться к сложным паттернам рассуждений, заложенным в более крупных моделях-учителях. Исследование открывает новые возможности для оптимизации инференса в задачах, требующих высокой точности при ограниченных аппаратных мощностях.

Ключевые факты

  • Метод DOPD (Dual On-policy Distillation) оптимизирует передачу знаний от учителя к ученику через плотные сигналы на уровне токенов.
  • Основная проблема, решаемая подходом — предотвращение деградации производительности при интеграции привилегированной информации в процесс дистилляции.
  • Метод опирается на on-policy траектории, что позволяет ученику обучаться на более качественных и релевантных данных, чем при стандартной оффлайн-дистилляции.
  • Исследование опубликовано на платформе arXiv (препринт 2606.30626v1) и предлагает архитектурное решение для повышения эффективности обучения LLM.