Исследователи представили метод DemoPSD (Disagreement-Modulated Policy Self-Distillation), направленный на улучшение процесса самодистилляции больших языковых моделей. Новый подход решает проблему переобучения на паттернах внутри домена, возникающую при использовании стандартной дистилляции, где модель выступает одновременно учителем и учеником. Метод динамически регулирует влияние учительских подсказок, повышая качество логических рассуждений модели.

Традиционные методы обучения с учителем (OPSD) часто страдают от того, что модель-учитель предоставляет слишком детальные пошаговые инструкции, основанные на привилегированной информации. Это приводит к тому, что модель-ученик начинает слепо копировать стиль ответов, вместо того чтобы развивать собственные навыки решения задач. DemoPSD вводит механизм модуляции, который анализирует расхождения между предсказаниями учителя и ученика, позволяя модели эффективнее фильтровать полезные сигналы.

Авторы метода продемонстрировали, что ограничение «плотности» контроля со стороны учителя помогает модели лучше обобщать знания на новые типы задач. Вместо того чтобы заставлять ученика повторять каждый шаг учителя, DemoPSD фокусируется на ключевых этапах рассуждения, где возникают наибольшие разногласия. Это позволяет снизить зависимость от специфических шаблонов данных и повысить устойчивость модели к сложным логическим запросам.

Ключевые факты

  • DemoPSD использует модуляцию разногласий для управления процессом обучения, предотвращая избыточную фиксацию на учительских подсказках.
  • Метод направлен на решение проблемы переобучения на внутридоменных паттернах, характерной для классической самодистилляции.
  • Подход позволяет модели-ученику развивать более гибкие стратегии рассуждения, снижая влияние привилегированной информации учителя.
  • Исследование опубликовано на платформе arXiv и предлагает альтернативу стандартным методам обучения LLM с использованием токенов-подсказок.