Исследователи предложили новый подход к обучению диффузионных языковых моделей (dLLMs) — on-policy self-distillation (OPSD). Этот метод уже показал свою эффективность для обычных языковых моделей, но его применение к dLLMs оставалось неизученным.
Традиционные методы OPSD ориентированы на авторегрессивные модели и используют токен-уровневое управление. Новый подход предлагает альтернативу, которая лучше соответствует особенностям dLLMs.
Авторы статьи утверждают, что их метод позволяет улучшить качество моделей за счёт более эффективного использования данных. Это может открыть новые возможности для развития dLLMs и их применения в различных задачах.
Исследование опубликовано на arXiv и доступно для дальнейшего изучения.