NVIDIA Technical Blog · 23.06.2026 ·Инференс и железо

Ускорение инференса в 15 раз на архитектуре NVIDIA Blackwell через DFlash

NVIDIA представила технологию DFlash, предназначенную для оптимизации работы больших языковых моделей на аппаратной платформе Blackwell. Метод основан на технике спекулятивного декодирования, которая позволяет значительно сократить задержки при генерации текста. В отличие от стандартных подходов, DFlash использует специализированные механизмы предсказания токенов, что позволяет достичь ускорения инференса до 15 раз в зависимости от конфигурации системы и типа модели.

Основная проблема современных LLM заключается в их авторегрессионной природе, где каждый последующий токен требует отдельного прохода через вычислительные мощности. С переходом к сложным агентным сценариям, требующим многошагового взаимодействия, требования к скорости обработки данных возрастают. DFlash минимизирует время ожидания, позволяя модели быстрее формировать ответы без потери точности, что критически важно для систем, работающих в режиме реального времени.

Технология эффективно распределяет нагрузку между графическими процессорами, оптимизируя использование памяти и пропускную способность шины NVLink. Это решение позволяет разработчикам запускать более тяжелые модели с высокой частотой запросов, сохраняя при этом низкий уровень задержек. Использование DFlash на архитектуре Blackwell открывает новые возможности для масштабирования агентных систем, делая их работу более отзывчивой и экономически эффективной за счет повышения пропускной способности серверов.

Источник: NVIDIA Technical Blog

Похожие материалы

NVIDIA Technical Blog · Инференс и железо NVIDIA Blackwell установила рекорд в инференсе LLM для финансов NVIDIA Blackwell установила новый рекорд в инференсе больших языковых моделей (LLM) для финансовых приложений, согласно результатам тестов STAC-AI. Новые графические процессоры Blackwell показали значительное улучшение производительности по сравнению с предыдущими поколениями, что делает их идеальными для обработки сложных финансовых данных. NVIDIA Technical Blog · Инференс и железо Ускорение обучения моделей с JAX и MaxText на NVIDIA Blackwell NVIDIA представила новый подход к ускорению обучения больших языковых моделей (LLM) с использованием фреймворка JAX и библиотеки MaxText на платформе NVIDIA Blackwell. Основное внимание уделено увеличению пропускной способности, что критически важно при обучении моделей на триллионах токенов и тысячах ускорителей. NVIDIA Technical Blog · Инференс и железо Запуск мультимодальных моделей на GPU NVIDIA NVIDIA представила обновление для своей платформы Step 3.7 Flash, которое позволяет запускать мультимодальные ИИ-модели на графических процессорах с повышенной производительностью. Это решение ориентировано на корпоративных пользователей и предоставляет инструменты для работы с изображениями, документами, видео и другими типами данных. Hacker News · Инференс и железо Оптимизация потребления VRAM через пропуск тайлов в архитектурах без Softmax Разработчики представили архитектурное решение для моделей с длинным контекстом, позволяющее существенно снизить требования к видеопамяти. Метод основан на использовании специализированных ядер (kernels) для пропуска вычислений в определенных сегментах данных, что исключает необходимость выполнения операции Softmax на каждом этапе обработки последовательности. NVIDIA Technical Blog · Инференс и железо Оптимизация инференса DiffusionGemma на графических процессорах NVIDIA NVIDIA представила рекомендации по запуску модели DiffusionGemma, направленные на повышение производительности генерации текста в реальном времени. Основной акцент сделан на устранении задержек при посимвольном выводе, что критически важно для работы чат-ботов, копайлотов и сложных агентных систем. Использование специализированных библиотек и методов оптимизации позволяет значительно увеличить пропускную способность инференса на аппаратном обеспечении компании. Hacker News · Инференс и железо Оптимизация инференса моделей через формат NVFP4 Компания Cohere представила обновленную версию своей модели North Mini Code, оптимизированную для работы с использованием нового формата данных NVFP4. Технология позволяет значительно повысить производительность инференса при сохранении исходного качества генерации кода. Использование этого формата обеспечивает ускорение вычислений в 1,65 раза по сравнению со стандартным форматом FP8, при этом потребление видеопамяти снижается на 40%. Hacker News · Инференс и железо FlashQwen – новый CUDA-движок для ускоренного инференса Qwen3 Разработчики представили FlashQwen – инференс-движок для модели Qwen3, написанный с нуля на CUDA. Это решение направлено на оптимизацию работы с моделями большого языка, особенно в условиях ограниченных ресурсов. FlashQwen использует современные методы ускорения вычислений, включая кэширование и оптимизацию ядра CUDA, что позволяет значительно сократить время инференса. Hacker News · Инференс и железо Экономия 67% на инференсе с Ray и vLLM на AMD MI325X Команда Anyscale опубликовала исследование, в котором продемонстрировала значительную экономию на инференсе моделей большого языка. Используя Ray и vLLM на процессорах AMD MI325X, удалось достичь сокращения затрат на 67% за счёт разнесения (disaggregation) префикса и декодирования. MarkTechPost · Инференс и железо Flash-KMeans: ускорение K-Means на GPU в 200 раз Flash-KMeans — это открытая реализация алгоритма K-Means, оптимизированная для работы на GPU с использованием Triton. В отличие от существующих решений, она не меняет математическую основу алгоритма, но значительно ускоряет его выполнение за счёт оптимизации ввода-вывода и устранения проблем с конкуренцией за ресурсы. Hacker News · Инфраструктура для агентов Инструменты профилирования CUDA для оптимизации инференса в продакшене Разработчики систем машинного обучения получили новый подход к мониторингу производительности GPU при работе с нейросетями в реальном времени. Основная сложность при запуске моделей в продакшене заключается в поиске «узких мест», которые возникают на уровне низкоуровневых операций CUDA. Традиционные инструменты часто требуют остановки процессов или сложной настройки окружения, что делает их непригодными для высоконагруженных систем.

← Все материалы