arXiv · 21.06.2026 ·Машинное обучение

Исследование влияния позиционного смещения в методах дистилляции моделей

Исследователи проанализировали эффективность метода On-Policy Distillation (OPD), который используется для ускорения обучения моделей с подкреплением через пошаговый контроль со стороны «учителя». Стандартный подход предполагает равномерное распределение весов для всех токенов при расчете функции потерь, однако новая работа доказывает, что такой метод не учитывает накопленные ошибки в длинных последовательностях.

В ходе экспериментов выяснилось, что по мере увеличения длины генерации модель-ученик начинает сильнее отклоняться от траектории учителя. Это приводит к возникновению «позиционного смещения» (position bias), когда ошибки в начале последовательности влияют на итоговый результат иначе, чем ошибки в конце. Равномерное усреднение потерь по всем токенам нивелирует значимость критических моментов принятия решений, что снижает общую точность обучения.

Авторы работы предлагают пересмотреть подход к взвешиванию токенов в процессе дистилляции. Учет динамики отклонений позволяет более эффективно передавать знания от сложных моделей к более компактным, минимизируя накопление ошибок в длинных контекстах. Это исследование открывает путь к созданию более стабильных алгоритмов обучения для задач, требующих генерации длинных и логически связных последовательностей.

Источник: arXiv

Похожие материалы

arXiv · Обучение и дообучение Как on-policy distillation меняет параметры моделей Исследователи из MIT и DeepMind изучили влияние on-policy distillation (OPD) на параметры моделей. Этот метод сочетает траектории студента, полученные в реальных условиях, с плотным супервизором от учителя. Авторы анализировали несколько языковых и визуально-языковых моделей и выявили два ключевых результата. arXiv · Машинное обучение Новый метод обучения dLLMs через самодистилляцию Исследователи предложили новый подход к обучению диффузионных языковых моделей (dLLMs) — on-policy self-distillation (OPSD). Этот метод уже показал свою эффективность для обычных языковых моделей, но его применение к dLLMs оставалось неизученным. arXiv · Машинное обучение Новый метод обучения нейросетей без жесткого копирования знаний Исследователи предложили альтернативу традиционному дистилляции знаний (knowledge distillation), где маленькие модели пытаются копировать логиты больших. Проблема в том, что это делает их слишком узкоспециализированными, ухудшая обобщающую способность. arXiv · Модели и релизы Почему самоулучшающиеся модели могут деградировать на новых задачах Исследователи из Arxiv выявили проблему в популярном подходе к самоулучшению визуально-языковых моделей (VLM), основанном на DPO (Direct Preference Optimization). В таких системах «верфикатор» оценивает генерации модели, а на основе лучших и худших примеров происходит обучение. Авторы показали, что этот метод может привести к деградации модели на новых задачах, несмотря на улучшение на обучающих данных. arXiv · Машинное обучение Исследование снижения дисперсии в обучении с подкреплением Исследователи проанализировали математические свойства метода временных различий (Temporal Difference, TD) в обучении с подкреплением. В работе рассматривается поведение алгоритма в табличной постановке задачи и выявляется ключевой механизм, позволяющий методу эффективно снижать дисперсию при оценке функций ценности. Авторы показывают, что TD-обучение достигает этого за счет агрегации данных по большему числу независимых траекторий, что делает его более устойчивым по сравнению с классическими методами Монте-Карло. arXiv · Машинное обучение Повышение устойчивости диффузионных моделей к зашумленным данным Исследователи предложили новый метод обучения диффузионных моделей, который делает их более устойчивыми к загрязненным обучающим выборкам. Традиционный подход, основанный на минимизации среднеквадратичной ошибки (MSE), часто оказывается чувствительным к выбросам и некачественным данным, что снижает итоговое качество генерации контента. arXiv · Машинное обучение Новый метод повышения устойчивости многоагентных систем в условиях неточных моделей Исследователи представили новый математический подход к решению проблемы расхождения данных между тренировочными симуляторами и реальной средой в многоагентном обучении с подкреплением (MARL). В реальных условиях разрыв между моделью и действительностью часто приводит к резкому падению производительности агентов, так как стратегическое взаимодействие между ними усиливает любые ошибки прогнозирования. Авторы работы предлагают использовать принципы дистрибутивной робастности для оптимизации стратегий. arXiv · Машинное обучение Новый подход к устранению предвзятости в моделях машинного обучения Исследователи представили методологию борьбы с предвзятостью в алгоритмах, которая учитывает пересечение нескольких защищаемых атрибутов, таких как раса и гендер. Традиционные методы часто не справляются с ситуациями, когда дискриминация проявляется только при сочетании нескольких факторов, что приводит к снижению точности моделей для определенных групп населения. Основная проблема заключается в нехватке репрезентативных данных для таких подгрупп и отсутствии четких математических метрик для оценки справедливости. arXiv · Машинное обучение Новый метод обучения мультимодальных моделей через разделение восприятия и рассуждения Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации. arXiv · Машинное обучение Новый подход к обучению стратегий с распределенными результатами Исследователи представили метод Wasserstein Policy Learning, предназначенный для обучения стратегий в условиях, когда результатом воздействия является не скалярное значение, а целое распределение вероятностей. Традиционные подходы к причинно-следственному выводу обычно фокусируются на максимизации среднего ожидаемого эффекта, что ограничивает возможности анализа в сложных системах, где важно учитывать вариативность и риски, а не только средний показатель.

← Все материалы