MarkTechPost · 24.06.2026 ·Инференс и железо

DFlash ускоряет генерацию LLM до 15 раз за счет параллельного предсказания блоков токенов

Исследователи из Калифорнийского университета в Сан-Диего представили метод DFlash, который радикально ускоряет инференс LLM. Вместо последовательного предсказания токенов модель использует легковесную диффузионную архитектуру для генерации целых блоков токенов параллельно. Технология обеспечивает до 6-кратного ускорения на стандартных GPU и до 15-кратного прироста пропускной способности на архитектуре NVIDIA Blackwell при сохранении точности ответов.

Традиционные методы спекулятивного декодирования часто ограничены последовательной природой авторегрессионных моделей, где каждый следующий токен зависит от предыдущего. DFlash меняет этот подход, заменяя стандартные модели-черновики (draft models) на специализированную диффузионную модель. Она генерирует блоки токенов за один проход, используя механизм инъекции KV-кэша для синхронизации с целевыми скрытыми признаками основной модели.

Такой подход позволяет значительно снизить задержки при работе с большими языковыми моделями, особенно в сценариях с высокой нагрузкой. Интеграция метода с аппаратными возможностями NVIDIA Blackwell позволяет максимально эффективно использовать тензорные ядра для параллельных вычислений, что делает технологию перспективной для развертывания высокопроизводительных агентных систем и чат-ботов реального времени.

Ключевые факты

Метод DFlash заменяет авторегрессионное черновиковое декодирование на параллельную генерацию блоков через диффузионную модель.
При тестировании на модели Qwen3-8B зафиксировано ускорение инференса до 6,08 раз без потери качества генерации.
На архитектуре NVIDIA Blackwell пропускная способность системы возрастает до 15 раз при сохранении фиксированного уровня интерактивности.
Технология использует механизм KV-инъекции для передачи контекста от целевой модели к диффузионному блоку-генератору.

Источник: MarkTechPost

Обсудить с ИИ

Похожие материалы

NVIDIA Technical Blog · Инференс и железо Ускорение инференса в 15 раз на архитектуре NVIDIA Blackwell через DFlash NVIDIA представила технологию DFlash, предназначенную для оптимизации работы больших языковых моделей на аппаратной платформе Blackwell. Метод основан на технике спекулятивного декодирования, которая позволяет значительно сократить задержки при генерации текста. В отличие от стандартных подходов, DFlash использует специализированные механизмы предсказания токенов, что позволяет достичь ускорения инференса до 15 раз в зависимости от конфигурации системы и типа модели. NVIDIA Technical Blog · Инференс и железо Ускорение обучения моделей с JAX и MaxText на NVIDIA Blackwell NVIDIA представила новый подход к ускорению обучения больших языковых моделей (LLM) с использованием фреймворка JAX и библиотеки MaxText на платформе NVIDIA Blackwell. Основное внимание уделено увеличению пропускной способности, что критически важно при обучении моделей на триллионах токенов и тысячах ускорителей. MarkTechPost · Инференс и железо Flash-KMeans: ускорение K-Means на GPU в 200 раз Flash-KMeans — это открытая реализация алгоритма K-Means, оптимизированная для работы на GPU с использованием Triton. В отличие от существующих решений, она не меняет математическую основу алгоритма, но значительно ускоряет его выполнение за счёт оптимизации ввода-вывода и устранения проблем с конкуренцией за ресурсы. NVIDIA Technical Blog · Инференс и железо NVIDIA Blackwell установила рекорд в инференсе LLM для финансов NVIDIA Blackwell установила новый рекорд в инференсе больших языковых моделей (LLM) для финансовых приложений, согласно результатам тестов STAC-AI. Новые графические процессоры Blackwell показали значительное улучшение производительности по сравнению с предыдущими поколениями, что делает их идеальными для обработки сложных финансовых данных. Hacker News · Машинное обучение Диффузионные модели для параллельной генерации текста Исследователи представили новый подход к архитектуре больших языковых моделей, основанный на принципах диффузии. В отличие от стандартных LLM, которые предсказывают следующий токен последовательно, новая методика позволяет генерировать множество токенов одновременно. Это радикально меняет процесс формирования текста, превращая его из пошагового авторегрессионного процесса в параллельный. Hacker News · Машинное обучение Оптимизация LLM для ускорения генерации программного кода Исследователи представили методы оптимизации языковых моделей, направленные на повышение скорости генерации программного кода. Основная проблема при работе с кодом заключается в высокой вычислительной сложности инференса, так как структура синтаксиса требует точного предсказания длинных последовательностей токенов. Авторы работы анализируют влияние различных архитектурных решений на задержку (latency) и пропускную способность при выполнении задач программирования. Hacker News · Инференс и железо FlashQwen – новый CUDA-движок для ускоренного инференса Qwen3 Разработчики представили FlashQwen – инференс-движок для модели Qwen3, написанный с нуля на CUDA. Это решение направлено на оптимизацию работы с моделями большого языка, особенно в условиях ограниченных ресурсов. FlashQwen использует современные методы ускорения вычислений, включая кэширование и оптимизацию ядра CUDA, что позволяет значительно сократить время инференса. arXiv · Машинное обучение Posterior Refinement: новый метод ускорения генерации текста в неавторегрессионных моделях Исследователи представили метод Posterior Refinement, решающий проблему низкой эффективности неавторегрессионных языковых моделей. Новый подход использует Any-Order Flow Maps для итеративного уточнения текста, позволяя моделям критиковать и перегенерировать произвольные фрагменты токенов одновременно. Это устраняет ошибки факторизации, характерные для маскированных диффузионных моделей, и значительно повышает качество генерации при сохранении высокой скорости работы. NVIDIA Technical Blog · Инференс и железо Запуск мультимодальных моделей на GPU NVIDIA NVIDIA представила обновление для своей платформы Step 3.7 Flash, которое позволяет запускать мультимодальные ИИ-модели на графических процессорах с повышенной производительностью. Это решение ориентировано на корпоративных пользователей и предоставляет инструменты для работы с изображениями, документами, видео и другими типами данных. Hacker News · Инференс и железо Оптимизация инференса моделей через формат NVFP4 Компания Cohere представила обновленную версию своей модели North Mini Code, оптимизированную для работы с использованием нового формата данных NVFP4. Технология позволяет значительно повысить производительность инференса при сохранении исходного качества генерации кода. Использование этого формата обеспечивает ускорение вычислений в 1,65 раза по сравнению со стандартным форматом FP8, при этом потребление видеопамяти снижается на 40%.

← Все материалы