Компания DeepSeek выпустила DSpark — фреймворк для спекулятивного декодирования, оптимизирующий работу модели DeepSeek-V4. Технология использует параллельный черновой модуль и облегченную марковскую «голову» для предсказания токенов, что позволяет увеличить скорость генерации на 60–85% по сравнению с методом MTP-1. Решение динамически адаптирует количество проверяемых токенов в зависимости от текущей нагрузки на GPU.

Механизм DSpark решает проблему задержек при инференсе за счет интеграции дополнительного модуля к весам основной модели. Система применяет стратегию «уверенной верификации» (confidence-scheduled verification), которая в реальном времени регулирует глубину проверки последовательностей. Это позволяет минимизировать количество вычислительных операций, необходимых для подтверждения корректности сгенерированного текста, сохраняя при этом точность ответов.

В ходе офлайн-тестирования фреймворк продемонстрировал рост длины принимаемых последовательностей на 16–31% по сравнению с существующими решениями DFlash и Eagle3. В производственных условиях технология обеспечивает значительное снижение времени ожидания для конечного пользователя, что критически важно для высоконагруженных агентных систем и чат-интерфейсов, работающих на базе крупных языковых моделей.

Ключевые факты

  • Прирост скорости генерации для пользователей составляет от 60% до 85% относительно MTP-1.
  • Показатель принятой длины токенов увеличился на 16–31% в сравнении с аналогами DFlash и Eagle3.
  • Архитектура включает параллельный черновой бэкенд и марковскую голову для предсказания суффиксов.
  • Система поддерживает динамическую проверку токенов, адаптирующуюся под текущую загрузку графических процессоров.