Исследователи из ByteDance и Китайского народного университета представили iLLaDA — языковую модель на 8 миллиардов параметров, использующую принципы диффузии вместо стандартной авторегрессии. В базовой конфигурации модель демонстрирует производительность, сопоставимую с Qwen2.5, предлагая альтернативный подход к генерации текста, который отличается от архитектур, лежащих в основе ChatGPT и большинства современных LLM.

Традиционные языковые модели предсказывают следующий токен в последовательности, тогда как iLLaDA работает по принципу итеративного уточнения данных, характерному для диффузионных моделей в генерации изображений. Этот метод позволяет модели генерировать текст не последовательно, а путем постепенного улучшения «зашумленного» представления текста до финального осмысленного результата. Такой подход открывает новые возможности для параллельной обработки данных и изменения структуры генерации контента.

Несмотря на успехи в базовом обучении, текущие тесты показывают, что после этапа дообучения (fine-tuning) iLLaDA начинает уступать Qwen2.5 в ряде специфических задач. Тем не менее, сам факт успешной реализации диффузионного подхода в текстовой модели такого масштаба является важным шагом для фундаментальных исследований в области машинного обучения, потенциально меняя представление о том, как могут быть устроены эффективные языковые системы будущего.

Ключевые факты

  • iLLaDA — диффузионная языковая модель с 8 миллиардами параметров (8B).
  • Разработкой занимались специалисты ByteDance совместно с Китайским народным университетом.
  • В базовом состоянии модель показывает результаты, сопоставимые с Qwen2.5.
  • Архитектура модели использует итеративный процесс уточнения текста, в отличие от классической авторегрессионной генерации токенов.
  • После процедуры дообучения модель демонстрирует снижение эффективности по сравнению с Qwen2.5.