Исследователи из Together AI представили Consistency Diffusion Language Models (CDLM) — метод, который ускоряет работу диффузионных языковых моделей в 14,5 раза без потери качества.
Проблема стандартных диффузионных моделей в том, что они не могут использовать кэширование ключ-значение (KV caching) и требуют множества шагов уточнения, что делает их неэффективными. CDLM решает обе проблемы: после обучения модель поддерживает точечное блоковое кэширование KV и сокращает количество шагов за счёт согласованности траекторий.
Тестирование показало, что CDLM сохраняет качество генерации текста при значительном снижении задержек. Это делает диффузионные модели более практичными для реального использования, особенно в задачах, требующих быстрого инференса.
Технология может найти применение в чат-ботах, системах генерации контента и других сервисах, где важна скорость обработки запросов.
