arXiv · 11.06.2026 ·Обучение и дообучение

Как on-policy distillation меняет параметры моделей

Исследователи из MIT и DeepMind изучили влияние on-policy distillation (OPD) на параметры моделей. Этот метод сочетает траектории студента, полученные в реальных условиях, с плотным супервизором от учителя. Авторы анализировали несколько языковых и визуально-языковых моделей и выявили два ключевых результата.

Первое: параметры моделей после OPD становятся более разреженными. Это означает, что значительная часть весов становится нулевой или незначительной, что может упростить инференс и снизить вычислительные затраты. Второе: геометрия параметров меняется, что может повлиять на обобщающую способность моделей.

Для разработчиков ИИ-агентов это важно, так как OPD может стать эффективным способом дообучения моделей на реальных данных. Разреженность параметров может улучшить производительность агентов, особенно в условиях ограниченных вычислительных ресурсов. Исследование также подчеркивает важность понимания геометрии параметров для оптимизации работы моделей.

Авторы отмечают, что OPD может быть полезен для адаптации моделей под конкретные задачи, что особенно актуально для ИИ-агентов, работающих в динамических средах. Исследование опубликовано на arXiv и доступно по ссылке.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Новый метод устранения искажений при дистилляции моделей Исследователи представили метод борьбы с искажениями при обучении моделей методом On-policy distillation (OPD). В традиционных подходах студент обучается на собственных траекториях, используя вероятности токенов от учителя. Авторы доказали, что локальная интерпретация этих вероятностей ошибочна, так как она сильно зависит от итогового результата всей траектории, что приводит к некорректному обучению на ошибках. arXiv · Обучение и дообучение DOPD: новый метод дистилляции моделей с использованием привилегированной информации Исследователи представили метод Dual On-policy Distillation (DOPD), направленный на повышение эффективности обучения компактных моделей через дистилляцию знаний. Подход решает проблему потери качества при использовании привилегированной информации, разделяя процессы обучения учителя и ученика. Это позволяет передавать более точные сигналы на уровне токенов, улучшая производительность моделей без необходимости в чрезмерных вычислительных ресурсах. arXiv · Машинное обучение Исследование влияния позиционного смещения в методах дистилляции моделей Исследователи проанализировали эффективность метода On-Policy Distillation (OPD), который используется для ускорения обучения моделей с подкреплением через пошаговый контроль со стороны «учителя». Стандартный подход предполагает равномерное распределение весов для всех токенов при расчете функции потерь, однако новая работа доказывает, что такой метод не учитывает накопленные ошибки в длинных последовательностях. arXiv · Машинное обучение On-Policy Delta Distillation: новый метод обучения моделей с подкреплением Исследователи представили метод On-Policy Delta Distillation, направленный на оптимизацию процесса пост-тренировки языковых моделей. Новый подход позволяет использовать токенизированный надзор от «учителя» для обучения «ученика», обходя ограничения традиционных моделей вознаграждения. Техника повышает эффективность обучения с подкреплением, обеспечивая более точную передачу знаний между моделями при сохранении стабильности процесса. arXiv · Исследования и наука Исследование Purified OPSD: почему самодистилляция вредит длинным цепочкам рассуждений Исследователи проанализировали метод on-policy self-distillation (OPSD), используемый для улучшения логических способностей LLM через обучение на собственных траекториях с подсказками «учителя». Выяснилось, что при работе с длинными цепочками рассуждений (long-CoT) этот подход не только не дает значимого прироста производительности, но и дестабилизирует процесс обучения, приводя к деградации способности модели к глубокому мышлению. arXiv · Машинное обучение Новый метод обучения dLLMs через самодистилляцию Исследователи предложили новый подход к обучению диффузионных языковых моделей (dLLMs) — on-policy self-distillation (OPSD). Этот метод уже показал свою эффективность для обычных языковых моделей, но его применение к dLLMs оставалось неизученным. arXiv · Модели и релизы Почему самоулучшающиеся модели могут деградировать на новых задачах Исследователи из Arxiv выявили проблему в популярном подходе к самоулучшению визуально-языковых моделей (VLM), основанном на DPO (Direct Preference Optimization). В таких системах «верфикатор» оценивает генерации модели, а на основе лучших и худших примеров происходит обучение. Авторы показали, что этот метод может привести к деградации модели на новых задачах, несмотря на улучшение на обучающих данных. arXiv · Машинное обучение Метод β-OPSD для повышения качества рассуждений языковых моделей Исследователи представили метод β-OPSD, который оптимизирует процесс обучения моделей через самодистилляцию. Авторы доказали, что стандартная техника OPSD является частным случаем более широкого семейства алгоритмов, где коэффициент β регулирует штраф KL-дивергенции. Настройка этого параметра позволяет значительно повысить стабильность обучения и качество логических рассуждений моделей, устраняя необходимость в сложных инженерных доработках, характерных для классических подходов. arXiv · Машинное обучение Метод VAD для улучшения обучения мультимодальных моделей через дистилляцию Исследователи представили метод VAD (Visual Attribution for Distillation), решающий проблему «смешанных сигналов» при обучении мультимодальных моделей методом on-policy дистилляции. Новый подход позволяет точно определять, какие корректировки предсказаний модели основаны на реальных визуальных данных, а какие — на языковых априорных знаниях или особенностях учителя, что значительно повышает качество реконструкции объектов. Hacker News · Обучение и дообучение Дистилляция знаний из закрытых LLM: новый подход к обучению компактных моделей Исследователи представили метод дистилляции знаний из «черных ящиков» — проприетарных больших языковых моделей — для обучения более компактных и эффективных нейросетей. Подход позволяет переносить сложные логические способности и лингвистические навыки от гигантских моделей к меньшим архитектурам, сохраняя высокую производительность при значительном снижении требований к вычислительным ресурсам и затратам на инференс.

← Все материалы