Исследователи из Калифорнийского университета в Сан-Диего представили метод DFlash, который радикально ускоряет инференс LLM. Вместо последовательного предсказания токенов модель использует легковесную диффузионную архитектуру для генерации целых блоков токенов параллельно. Технология обеспечивает до 6-кратного ускорения на стандартных GPU и до 15-кратного прироста пропускной способности на архитектуре NVIDIA Blackwell при сохранении точности ответов.

Традиционные методы спекулятивного декодирования часто ограничены последовательной природой авторегрессионных моделей, где каждый следующий токен зависит от предыдущего. DFlash меняет этот подход, заменяя стандартные модели-черновики (draft models) на специализированную диффузионную модель. Она генерирует блоки токенов за один проход, используя механизм инъекции KV-кэша для синхронизации с целевыми скрытыми признаками основной модели.

Такой подход позволяет значительно снизить задержки при работе с большими языковыми моделями, особенно в сценариях с высокой нагрузкой. Интеграция метода с аппаратными возможностями NVIDIA Blackwell позволяет максимально эффективно использовать тензорные ядра для параллельных вычислений, что делает технологию перспективной для развертывания высокопроизводительных агентных систем и чат-ботов реального времени.

Ключевые факты

  • Метод DFlash заменяет авторегрессионное черновиковое декодирование на параллельную генерацию блоков через диффузионную модель.
  • При тестировании на модели Qwen3-8B зафиксировано ускорение инференса до 6,08 раз без потери качества генерации.
  • На архитектуре NVIDIA Blackwell пропускная способность системы возрастает до 15 раз при сохранении фиксированного уровня интерактивности.
  • Технология использует механизм KV-инъекции для передачи контекста от целевой модели к диффузионному блоку-генератору.