DeepSeek-V4, новая модель от DeepSeek, поддерживает контекст длиной в миллион токенов. Это создаёт новые вызовы для инференс-систем, так как обработка такого объёма данных требует оптимизации на уровне оборудования и алгоритмов.
Together AI исследовала, как работает инференс для DeepSeek-V4 на серверах NVIDIA HGX B200. В фокусе — сжатые KV-массивы, кэширование префиксов, зрелость ядер и профилирование эндпоинтов для длинных контекстов.
Ключевые аспекты включают эффективное управление памятью и вычислительными ресурсами. Например, сжатые KV-массивы позволяют уменьшить нагрузку на память, а кэширование префиксов ускоряет обработку повторяющихся запросов.
Компания также отмечает, что зрелость ядер и оптимизация профилей эндпоинтов критически важны для стабильной работы с длинными контекстами. Это особенно актуально для моделей, работающих на мощном оборудовании, таком как NVIDIA HGX B200.
Результаты исследования показывают, что миллион-токеновый контекст — это не только вопрос модели, но и сложная инженерная задача, требующая глубокой оптимизации инференс-систем.
