The Decoder · 27.06.2026 ·Модели и релизы

ByteDance представила iLLaDA: диффузионная языковая модель с архитектурой 8B

Исследователи из ByteDance и Китайского народного университета представили iLLaDA — языковую модель на 8 миллиардов параметров, использующую принципы диффузии вместо стандартной авторегрессии. В базовой конфигурации модель демонстрирует производительность, сопоставимую с Qwen2.5, предлагая альтернативный подход к генерации текста, который отличается от архитектур, лежащих в основе ChatGPT и большинства современных LLM.

Традиционные языковые модели предсказывают следующий токен в последовательности, тогда как iLLaDA работает по принципу итеративного уточнения данных, характерному для диффузионных моделей в генерации изображений. Этот метод позволяет модели генерировать текст не последовательно, а путем постепенного улучшения «зашумленного» представления текста до финального осмысленного результата. Такой подход открывает новые возможности для параллельной обработки данных и изменения структуры генерации контента.

Несмотря на успехи в базовом обучении, текущие тесты показывают, что после этапа дообучения (fine-tuning) iLLaDA начинает уступать Qwen2.5 в ряде специфических задач. Тем не менее, сам факт успешной реализации диффузионного подхода в текстовой модели такого масштаба является важным шагом для фундаментальных исследований в области машинного обучения, потенциально меняя представление о том, как могут быть устроены эффективные языковые системы будущего.

Ключевые факты

iLLaDA — диффузионная языковая модель с 8 миллиардами параметров (8B).
Разработкой занимались специалисты ByteDance совместно с Китайским народным университетом.
В базовом состоянии модель показывает результаты, сопоставимые с Qwen2.5.
Архитектура модели использует итеративный процесс уточнения текста, в отличие от классической авторегрессионной генерации токенов.
После процедуры дообучения модель демонстрирует снижение эффективности по сравнению с Qwen2.5.

Источник: The Decoder

Обсудить с ИИ

Похожие материалы

Hacker News · Машинное обучение Диффузионные модели для параллельной генерации текста Исследователи представили новый подход к архитектуре больших языковых моделей, основанный на принципах диффузии. В отличие от стандартных LLM, которые предсказывают следующий токен последовательно, новая методика позволяет генерировать множество токенов одновременно. Это радикально меняет процесс формирования текста, превращая его из пошагового авторегрессионного процесса в параллельный. arXiv · Модели и релизы DreamReasoner-8B: ускорение логических рассуждений через блочную диффузию Исследователи представили DreamReasoner-8B — открытую языковую модель, использующую метод блочной диффузии для генерации цепочек рассуждений (Chain-of-Thought). В отличие от стандартных авторегрессионных моделей, которые генерируют текст токен за токеном, блочные диффузионные модели позволяют выполнять параллельное шумоподавление сразу для нескольких сегментов текста. Это решение направлено на преодоление ограничений скорости при выполнении сложных логических задач, требующих длинных последовательностей рассуждений. Together.ai · Машинное обучение Новый метод ускоряет диффузионные языковые модели в 14 раз Исследователи из Together AI представили Consistency Diffusion Language Models (CDLM) — метод, который ускоряет работу диффузионных языковых моделей в 14,5 раза без потери качества. Together.ai · Оркестрация агентов Как слабые модели справляются с длинным контекстом Исследователи из Together AI предложили новый подход к обработке длинных текстов с помощью небольших языковых моделей. Они разработали фреймворк «Divide & Conquer», который разбивает длинные документы на параллельные части и обрабатывает их с помощью нескольких моделей. Hacker News · Исследования и наука Технологический прорыв DeepSeek в архитектуре нейросетей Китайская исследовательская лаборатория DeepSeek представила архитектуру, которая существенно меняет подход к обучению и работе крупных языковых моделей. В основе решения лежит использование архитектуры Mixture-of-Experts (MoE) с глубокой оптимизацией процесса активации параметров. Вместо того чтобы задействовать всю нейросеть целиком для каждого запроса, система активирует лишь малую часть весов, что позволяет радикально снизить вычислительные затраты при сохранении высокой точности ответов. Simon Willison's Weblog · Модели и релизы Выпущена открытая LLM GLM-5.2 с 753 миллиардами параметров Китайская лаборатория Z.ai представила модель GLM-5.2, которая на текущий момент претендует на звание самой мощной текстовой языковой модели с открытыми весами. Релиз состоялся спустя несколько дней после ограниченного доступа для подписчиков, и теперь веса модели доступны под лицензией MIT. Архитектура новинки основана на принципе Mixture of Experts (MoE), что позволяет эффективно использовать ресурсы при колоссальном объеме параметров. Hacker News · Модели и релизы Китайские ИИ-модели сокращают технологический разрыв с лидерами рынка Китайские разработчики ИИ значительно сократили отставание от ведущих западных лабораторий, таких как OpenAI и Anthropic. Новые модели из КНР демонстрируют результаты, сопоставимые с топовыми западными аналогами в тестах на логику, программирование и работу с текстом, что меняет глобальный ландшафт конкуренции в сфере генеративного искусственного интеллекта и ставит под вопрос технологическое доминирование США. Hugging Face - Blog · Исследования и наука Исследование AllenAI: какие токены лучше предсказывают гибридные модели Исследователи из Allen Institute for AI проанализировали эффективность гибридных моделей, сочетающих предсказание токенов и предсказание скрытых состояний. Анализ показал, что такие архитектуры лучше справляются с редкими словами и сложными синтаксическими конструкциями, где стандартные языковые модели на основе токенов часто допускают ошибки из-за ограничений словаря или особенностей токенизации. arXiv · Модели и релизы Sumi: новая архитектура диффузионных языковых моделей Исследователи представили Sumi — первую языковую модель, основанную на принципе равномерной диффузии (Uniform Diffusion Language Model, UDLM), которая была обучена с нуля на значительном объеме данных и с большим количеством параметров. В отличие от традиционных авторегрессионных моделей, которые генерируют текст последовательно, токен за токеном, подход UDLM позволяет обновлять любой токен на любом этапе генерации. Это открывает возможности для более гибкого управления процессом создания текста и потенциально меняет подход к архитектуре больших языковых моделей. Google DeepMind News · Машинное обучение DiffusionGemma от DeepMind ускоряет генерацию текста в 4 раза DeepMind представила новую модель DiffusionGemma, которая значительно ускоряет процесс генерации текста. Новая модель работает в 4 раза быстрее по сравнению с предыдущими решениями, что делает её одной из самых быстрых в своей категории. Это достижение может иметь значительное влияние на разработку ИИ-агентов, где скорость генерации текста играет ключевую роль в эффективности работы.

← Все материалы