Исследователи представили новый подход к архитектуре больших языковых моделей, основанный на принципах диффузии. В отличие от стандартных LLM, которые предсказывают следующий токен последовательно, новая методика позволяет генерировать множество токенов одновременно. Это радикально меняет процесс формирования текста, превращая его из пошагового авторегрессионного процесса в параллельный.
Технология опирается на итеративное уточнение данных, что характерно для моделей генерации изображений. Система начинает с «шума» и постепенно преобразует его в связный текст, проходя через несколько этапов коррекции. Такой подход теоретически позволяет значительно увеличить скорость генерации длинных фрагментов текста, так как модель не ограничена необходимостью ожидать завершения вычислений для каждого предыдущего токена.
Разработка направлена на преодоление главного узкого места современных языковых моделей — высокой задержки при выводе данных. Параллельная обработка токенов может стать фундаментом для создания более эффективных систем инференса, способных работать в режиме реального времени даже при генерации больших объемов контента. Исследование открывает перспективы для оптимизации вычислительных затрат и изменения подходов к обучению нейросетей.