Исследователи представили архитектуру Multi-Block Diffusion (MultiBD), расширяющую возможности диффузионных языковых моделей. В отличие от традиционных подходов, MultiBD позволяет параллельно декодировать последовательные блоки текста, что значительно ускоряет процесс генерации. Метод решает проблему ограничений Single-Block моделей, внедряя эффективную работу с KV-кэшем и обеспечивая гибкость при создании контента переменной длины.
Диффузионные модели традиционно уступают авторегрессионным аналогам в скорости генерации из-за последовательного характера вычислений. Переход к многоблочной структуре позволяет задействовать параллелизм на уровне блоков, сохраняя при этом высокое качество генерации, характерное для диффузионных процессов. Это открывает путь к более эффективному использованию вычислительных ресурсов при работе с большими языковыми моделями.
Разработка фокусируется на оптимизации процесса обучения и инференса, позволяя модели одновременно обрабатывать «бегущее множество» блоков. Такой подход минимизирует задержки, возникающие при генерации длинных последовательностей, и делает диффузионные архитектуры более конкурентоспособными в задачах, требующих высокой пропускной способности и низкой латентности.
Ключевые факты
- MultiBD реализует параллельное декодирование последовательных блоков текста для повышения скорости генерации.
- Архитектура использует механизм KV-кэширования, адаптированный для диффузионных процессов.
- Метод устраняет ограничения Single-Block моделей, позволяя эффективно генерировать текст переменной длины.
- Параллелизм достигается за счет одновременной обработки «бегущего множества» (running-set) блоков в процессе генерации.