Исследователи представили Sumi — первую языковую модель, основанную на принципе равномерной диффузии (Uniform Diffusion Language Model, UDLM), которая была обучена с нуля на значительном объеме данных и с большим количеством параметров. В отличие от традиционных авторегрессионных моделей, которые генерируют текст последовательно, токен за токеном, подход UDLM позволяет обновлять любой токен на любом этапе генерации. Это открывает возможности для более гибкого управления процессом создания текста и потенциально меняет подход к архитектуре больших языковых моделей.
Основная проблема существующих диффузионных моделей для текста заключалась в отсутствии масштабных экспериментов: ранее такие архитектуры не обучались на достаточно больших наборах данных, чтобы конкурировать с современными трансформерами. Авторы Sumi преодолели этот барьер, продемонстрировав, что диффузионные методы могут масштабироваться до уровня, сопоставимого с современными авторегрессионными системами. Это ставит под вопрос доминирование классических архитектур, основанных исключительно на предсказании следующего токена.
Использование диффузионного процесса позволяет модели лучше учитывать глобальный контекст всей последовательности сразу, а не только предыдущих элементов. Такой подход может привести к созданию более эффективных систем генерации, где качество текста и логическая связность достигаются за счет итеративного уточнения всей структуры сообщения. Результаты работы Sumi открывают новое направление в исследованиях, предлагая альтернативный путь развития для генеративного ИИ, где гибкость генерации становится ключевым преимуществом перед линейным предсказанием.