Исследователи проанализировали эффективность метода On-Policy Distillation (OPD), который используется для ускорения обучения моделей с подкреплением через пошаговый контроль со стороны «учителя». Стандартный подход предполагает равномерное распределение весов для всех токенов при расчете функции потерь, однако новая работа доказывает, что такой метод не учитывает накопленные ошибки в длинных последовательностях.
В ходе экспериментов выяснилось, что по мере увеличения длины генерации модель-ученик начинает сильнее отклоняться от траектории учителя. Это приводит к возникновению «позиционного смещения» (position bias), когда ошибки в начале последовательности влияют на итоговый результат иначе, чем ошибки в конце. Равномерное усреднение потерь по всем токенам нивелирует значимость критических моментов принятия решений, что снижает общую точность обучения.
Авторы работы предлагают пересмотреть подход к взвешиванию токенов в процессе дистилляции. Учет динамики отклонений позволяет более эффективно передавать знания от сложных моделей к более компактным, минимизируя накопление ошибок в длинных контекстах. Это исследование открывает путь к созданию более стабильных алгоритмов обучения для задач, требующих генерации длинных и логически связных последовательностей.