arXiv · 16.06.2026 ·Машинное обучение

Новый метод обучения dLLMs через самодистилляцию

Исследователи предложили новый подход к обучению диффузионных языковых моделей (dLLMs) — on-policy self-distillation (OPSD). Этот метод уже показал свою эффективность для обычных языковых моделей, но его применение к dLLMs оставалось неизученным.

Традиционные методы OPSD ориентированы на авторегрессивные модели и используют токен-уровневое управление. Новый подход предлагает альтернативу, которая лучше соответствует особенностям dLLMs.

Авторы статьи утверждают, что их метод позволяет улучшить качество моделей за счёт более эффективного использования данных. Это может открыть новые возможности для развития dLLMs и их применения в различных задачах.

Исследование опубликовано на arXiv и доступно для дальнейшего изучения.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Обучение и дообучение DOPD: новый метод дистилляции моделей с использованием привилегированной информации Исследователи представили метод Dual On-policy Distillation (DOPD), направленный на повышение эффективности обучения компактных моделей через дистилляцию знаний. Подход решает проблему потери качества при использовании привилегированной информации, разделяя процессы обучения учителя и ученика. Это позволяет передавать более точные сигналы на уровне токенов, улучшая производительность моделей без необходимости в чрезмерных вычислительных ресурсах. arXiv · Машинное обучение On-Policy Delta Distillation: новый метод обучения моделей с подкреплением Исследователи представили метод On-Policy Delta Distillation, направленный на оптимизацию процесса пост-тренировки языковых моделей. Новый подход позволяет использовать токенизированный надзор от «учителя» для обучения «ученика», обходя ограничения традиционных моделей вознаграждения. Техника повышает эффективность обучения с подкреплением, обеспечивая более точную передачу знаний между моделями при сохранении стабильности процесса. arXiv · Обучение и дообучение DemoPSD: новый метод обучения LLM через модуляцию разногласий Исследователи представили метод DemoPSD (Disagreement-Modulated Policy Self-Distillation), направленный на улучшение процесса самодистилляции больших языковых моделей. Новый подход решает проблему переобучения на паттернах внутри домена, возникающую при использовании стандартной дистилляции, где модель выступает одновременно учителем и учеником. Метод динамически регулирует влияние учительских подсказок, повышая качество логических рассуждений модели. arXiv · Машинное обучение Новый метод обучения Masked Diffusion Language Models через Mask-Aware Policy Gradients Исследователи представили метод Mask-Aware Policy Gradients, решающий проблему неэффективности обучения диффузионных языковых моделей (MDLM) с подкреплением. Новый подход учитывает порядок снятия масок при генерации токенов, что позволяет точнее оценивать логарифмическое правдоподобие и улучшать качество рассуждений моделей, преодолевая ограничения существующих методов, игнорирующих последовательность процесса демаскирования. arXiv · Машинное обучение Новый метод устранения искажений при дистилляции моделей Исследователи представили метод борьбы с искажениями при обучении моделей методом On-policy distillation (OPD). В традиционных подходах студент обучается на собственных траекториях, используя вероятности токенов от учителя. Авторы доказали, что локальная интерпретация этих вероятностей ошибочна, так как она сильно зависит от итогового результата всей траектории, что приводит к некорректному обучению на ошибках. arXiv · Обучение и дообучение Исследователи выявили феномен «коллапса мышления» при самодистилляции LLM Исследователи обнаружили, что метод самодистилляции (OPSD), используемый для улучшения и выравнивания больших языковых моделей, может приводить к «коллапсу мышления». В сложных задачах на логику этот процесс вызывает резкое снижение способности модели к рассуждению. Авторы работы систематизировали этот эффект, определив его как критическую ловушку оптимизации, и предложили методы для предотвращения деградации производительности при дообучении. arXiv · Исследования и наука Исследование Purified OPSD: почему самодистилляция вредит длинным цепочкам рассуждений Исследователи проанализировали метод on-policy self-distillation (OPSD), используемый для улучшения логических способностей LLM через обучение на собственных траекториях с подсказками «учителя». Выяснилось, что при работе с длинными цепочками рассуждений (long-CoT) этот подход не только не дает значимого прироста производительности, но и дестабилизирует процесс обучения, приводя к деградации способности модели к глубокому мышлению. arXiv · Машинное обучение Новый метод Predictive Divergence Masks для стабилизации обучения LLM с подкреплением Исследователи представили метод Predictive Divergence Masks, оптимизирующий процесс обучения LLM с подкреплением (RL). Новый подход заменяет стандартные маски доверительной области, используемые в PPO, более точными критериями близости и направления. Это позволяет эффективнее контролировать обновления политики, предотвращая деградацию модели при работе с off-policy данными и повышая общую стабильность обучения. arXiv · Безопасность и алайнмент Новый метод дистилляции для защиты LLM от вредоносных данных Исследователи представили метод On-Policy Distillation, направленный на повышение безопасности LLM при дообучении. Подход решает проблему внедрения вредоносного поведения через скомпрометированные обучающие выборки. Используя механизм маршрутизации (routing), система позволяет эффективно перенастраивать модели, сохраняя их профессиональные навыки и одновременно блокируя попытки обхода этических ограничений, которые часто встречаются в стандартных сценариях fine-tuning. arXiv · Машинное обучение Исследование влияния позиционного смещения в методах дистилляции моделей Исследователи проанализировали эффективность метода On-Policy Distillation (OPD), который используется для ускорения обучения моделей с подкреплением через пошаговый контроль со стороны «учителя». Стандартный подход предполагает равномерное распределение весов для всех токенов при расчете функции потерь, однако новая работа доказывает, что такой метод не учитывает накопленные ошибки в длинных последовательностях.

← Все материалы