Компания DeepSeek выпустила фреймворк DSpark, позволяющий значительно повысить скорость генерации ответов LLM. Технология использует связку из компактной модели-кандидата и основной крупной модели, что позволяет обрабатывать токены пакетами. Решение обеспечивает прирост производительности от 60% до 85%, позволяя эффективнее использовать имеющиеся вычислительные ресурсы в условиях ограничений на поставки высокопроизводительных чипов.

Метод основан на архитектуре спекулятивного декодирования. Малая модель генерирует последовательность вероятных токенов, которые затем параллельно проверяются основной моделью. Такой подход минимизирует время ожидания и снижает нагрузку на GPU, так как основная модель подтверждает или корректирует предсказания «младшего» партнера за один проход. Это позволяет достичь высокой пропускной способности системы без необходимости увеличения количества графических ускорителей.

Разработка имеет стратегическое значение для оптимизации инфраструктуры в условиях экспортного контроля США. Повышение эффективности инференса позволяет компаниям запускать сложные модели на менее мощном оборудовании, сохраняя при этом качество ответов. Технология ориентирована на масштабируемые системы, где критически важна скорость отклика для конечного пользователя при ограниченном доступе к передовым чипам серии H100 или A100.

Ключевые факты

  • Прирост скорости генерации ответов составляет от 60% до 85% в зависимости от сценария использования.
  • Механизм работы базируется на спекулятивном декодировании: малая модель предлагает токены, большая — верифицирует их пакетами.
  • Технология позволяет снизить зависимость от дефицитных высокопроизводительных чипов за счет оптимизации алгоритмов обработки.
  • Фреймворк направлен на повышение эффективности инференса в условиях жестких ограничений на экспорт оборудования.