Исследователи предложили альтернативу традиционному дистилляции знаний (knowledge distillation), где маленькие модели пытаются копировать логиты больших. Проблема в том, что это делает их слишком узкоспециализированными, ухудшая обобщающую способность.
Новый подход, Zone of Proximal Policy Optimization (ZPPO), использует принципы reinforcement learning. Вместо того чтобы заставлять студента копировать логиты учителя, он обучается на собственных развертываниях, что позволяет лучше обобщать знания.
Авторы сравнили ZPPO с традиционными методами на нескольких бенчмарках и показали, что новый метод демонстрирует лучшие результаты в задачах, не связанных с обучающими данными. Это может стать важным шагом в разработке более универсальных и надежных моделей.
Работа опубликована на arXiv и доступна для скачивания.