The Decoder · 30.06.2026 ·Инфраструктура для агентов

DeepSeek представила фреймворк DSpark для ускорения инференса до 85%

Компания DeepSeek выпустила фреймворк DSpark, позволяющий значительно повысить скорость генерации ответов LLM. Технология использует связку из компактной модели-кандидата и основной крупной модели, что позволяет обрабатывать токены пакетами. Решение обеспечивает прирост производительности от 60% до 85%, позволяя эффективнее использовать имеющиеся вычислительные ресурсы в условиях ограничений на поставки высокопроизводительных чипов.

Метод основан на архитектуре спекулятивного декодирования. Малая модель генерирует последовательность вероятных токенов, которые затем параллельно проверяются основной моделью. Такой подход минимизирует время ожидания и снижает нагрузку на GPU, так как основная модель подтверждает или корректирует предсказания «младшего» партнера за один проход. Это позволяет достичь высокой пропускной способности системы без необходимости увеличения количества графических ускорителей.

Разработка имеет стратегическое значение для оптимизации инфраструктуры в условиях экспортного контроля США. Повышение эффективности инференса позволяет компаниям запускать сложные модели на менее мощном оборудовании, сохраняя при этом качество ответов. Технология ориентирована на масштабируемые системы, где критически важна скорость отклика для конечного пользователя при ограниченном доступе к передовым чипам серии H100 или A100.

Ключевые факты

Прирост скорости генерации ответов составляет от 60% до 85% в зависимости от сценария использования.
Механизм работы базируется на спекулятивном декодировании: малая модель предлагает токены, большая — верифицирует их пакетами.
Технология позволяет снизить зависимость от дефицитных высокопроизводительных чипов за счет оптимизации алгоритмов обработки.
Фреймворк направлен на повышение эффективности инференса в условиях жестких ограничений на экспорт оборудования.

Источник: The Decoder

Обсудить с ИИ

Похожие материалы

Hacker News · Инфраструктура для агентов DeepSeek представила фреймворк DSpark для ускорения инференса LLM Компания DeepSeek открыла исходный код DSpark — специализированного фреймворка, предназначенного для оптимизации процесса инференса больших языковых моделей. Решение позволяет значительно сократить время генерации ответов, обеспечивая прирост производительности до 85% в определенных сценариях. Инструмент ориентирован на масштабируемые системы, где критически важна скорость работы моделей при высоких нагрузках и работе с длинным контекстом. MarkTechPost · Инфраструктура для агентов DeepSeek представила DSpark для ускорения генерации моделей Компания DeepSeek выпустила DSpark — фреймворк для спекулятивного декодирования, оптимизирующий работу модели DeepSeek-V4. Технология использует параллельный черновой модуль и облегченную марковскую «голову» для предсказания токенов, что позволяет увеличить скорость генерации на 60–85% по сравнению с методом MTP-1. Решение динамически адаптирует количество проверяемых токенов в зависимости от текущей нагрузки на GPU. Hacker News · Инференс и железо DeepSeek представила методы оптимизации инференса с ускорением до 85% Компания DeepSeek опубликовала техническую документацию по методам оптимизации инференса, позволяющим ускорить генерацию текста на 60–85%. Разработка фокусируется на снижении задержек при работе с большими языковыми моделями за счет эффективного управления вычислительными ресурсами и оптимизации алгоритмов обработки токенов, что критически важно для масштабируемых агентных систем и высоконагруженных сервисов. Hacker News · Инференс и железо Оптимизированный фреймворк для запуска DeepSeek V4 на системах DGX Spark Представлен специализированный фреймворк для развертывания моделей семейства DeepSeek V4, адаптированный под архитектуру NVIDIA DGX Spark. Решение фокусируется на повышении эффективности инференса за счет оптимизации работы с памятью и вычислительными ресурсами при использовании специализированных аппаратных ускорителей. GitHub · Инфраструктура для агентов DeepSpec: фреймворк от DeepSeek для оптимизации инференса через спекулятивное декодирование Компания DeepSeek представила DeepSpec — комплексную инфраструктуру для разработки, обучения и оценки алгоритмов спекулятивного декодирования. Инструментарий позволяет ускорить генерацию текста LLM за счет использования малых моделей-черновиков, которые предсказывают токены, а затем верифицируются основной моделью. Решение предоставляет полный стек для оптимизации инференса и повышения пропускной способности систем в реальном времени. Hacker News · Инфраструктура для агентов DeepSeek Flash меняет экономику агентных систем через оптимизацию планирования Появление модели DeepSeek Flash радикально меняет экономическую модель разработки ИИ-агентов. Благодаря высокой скорости и низкой стоимости инференса, разработчики переходят от сложных промптов к архитектуре «код как план». Это позволяет агентам выполнять многошаговые задачи с минимальными затратами, делая автономные системы экономически эффективными для массового использования в реальных бизнес-процессах. MarkTechPost · Инференс и железо DFlash ускоряет генерацию LLM до 15 раз за счет параллельного предсказания блоков токенов Исследователи из Калифорнийского университета в Сан-Диего представили метод DFlash, который радикально ускоряет инференс LLM. Вместо последовательного предсказания токенов модель использует легковесную диффузионную архитектуру для генерации целых блоков токенов параллельно. Технология обеспечивает до 6-кратного ускорения на стандартных GPU и до 15-кратного прироста пропускной способности на архитектуре NVIDIA Blackwell при сохранении точности ответов. Hacker News · Инференс и железо Оптимизация холодного старта для тяжелых LLM: запуск DeepSeek-V4-Pro за 20 секунд Инженеры Inferize представили решение, позволяющее сократить время холодного старта для крупных языковых моделей до 20 секунд. Технология фокусируется на ускорении загрузки весов модели в GPU-память, что критически важно для серверных инфраструктур, использующих динамическое масштабирование ресурсов для обслуживания запросов к тяжелым LLM в режиме реального времени. Hacker News · Инференс и железо JetSpec ускоряет инференс LLM до 9.64 раз с помощью параллельного древовидного декодирования Исследователи представили JetSpec — новый метод оптимизации инференса больших языковых моделей, использующий параллельное древовидное декодирование. Технология позволяет достичь ускорения до 9.64 раз при сохранении точности генерации. В пиковых нагрузках система демонстрирует производительность до 1000 токенов в секунду (TPS), что значительно превосходит стандартные подходы к генерации текста. Hacker News · Инференс и железо Fastllm: запуск DeepSeek-V4 на потребительском железе с 10 ГБ VRAM Библиотека Fastllm оптимизировала процесс инференса для тяжеловесных моделей, позволив запускать DeepSeek-V4 на видеокартах с объемом памяти всего 10 ГБ. Это значительный шаг в сторону доступности высокопроизводительных LLM для локального использования, так как ранее для работы подобных архитектур требовались серверные мощности с кратно большим объемом видеопамяти.

← Все материалы