Together.ai · 10.05.2026 ·Инференс и железо

DeepSeek-V4 и миллион-токеновый контекст: вызов для инференс-систем

DeepSeek-V4 и миллион-токеновый контекст: вызов для инференс-систем

DeepSeek-V4, новая модель от DeepSeek, поддерживает контекст длиной в миллион токенов. Это создаёт новые вызовы для инференс-систем, так как обработка такого объёма данных требует оптимизации на уровне оборудования и алгоритмов.

Together AI исследовала, как работает инференс для DeepSeek-V4 на серверах NVIDIA HGX B200. В фокусе — сжатые KV-массивы, кэширование префиксов, зрелость ядер и профилирование эндпоинтов для длинных контекстов.

Ключевые аспекты включают эффективное управление памятью и вычислительными ресурсами. Например, сжатые KV-массивы позволяют уменьшить нагрузку на память, а кэширование префиксов ускоряет обработку повторяющихся запросов.

Компания также отмечает, что зрелость ядер и оптимизация профилей эндпоинтов критически важны для стабильной работы с длинными контекстами. Это особенно актуально для моделей, работающих на мощном оборудовании, таком как NVIDIA HGX B200.

Результаты исследования показывают, что миллион-токеновый контекст — это не только вопрос модели, но и сложная инженерная задача, требующая глубокой оптимизации инференс-систем.

Источник: Together.ai

Обсудить с ИИ

Похожие материалы

Hugging Face - Blog · Память и RAG DeepSeek-V4: миллион токенов для ИИ-агентов Команда DeepSeek представила новую версию своей модели DeepSeek-V4, которая поддерживает контекст длиной в миллион токенов. Это значительный шаг вперёд для разработчиков ИИ-агентов, так как возможность работы с таким объёмом информации открывает новые горизонты для создания более сложных и автономных систем. Hacker News · Модели и релизы Анализ производительности и стоимости модели DeepSeek-V4-Flash Аналитическая платформа Artificial Analysis опубликовала детальный разбор новой модели DeepSeek-V4-Flash. Исследование подтверждает высокую эффективность архитектуры, демонстрируя значительный прогресс в соотношении вычислительной мощности и стоимости инференса. Модель показывает конкурентные результаты в бенчмарках, сохраняя при этом низкие задержки, что делает её привлекательным решением для высоконагруженных систем, требующих быстрой обработки данных при ограниченном бюджете на API. Together.ai · Модели и релизы DeepSeek-V4 Pro доступна на Together AI Together AI анонсировала доступность модели DeepSeek-V4 Pro. Новая версия поддерживает контекст длиной 512K токенов, что позволяет обрабатывать сложные задачи, такие как анализ кода, документов и синтез исследований. Hacker News · Инференс и железо DeepSeek представила методы оптимизации инференса с ускорением до 85% Компания DeepSeek опубликовала техническую документацию по методам оптимизации инференса, позволяющим ускорить генерацию текста на 60–85%. Разработка фокусируется на снижении задержек при работе с большими языковыми моделями за счет эффективного управления вычислительными ресурсами и оптимизации алгоритмов обработки токенов, что критически важно для масштабируемых агентных систем и высоконагруженных сервисов. Hacker News · Инференс и железо Оптимизация инференса для длинного контекста на потребительских GPU Исследователи представили метод эффективной обработки контекста до миллиона токенов на обычном потребительском оборудовании. Технология использует разреженность (sparsity) вычислений в механизме внимания, что позволяет радикально снизить требования к видеопамяти и вычислительным мощностям. Это решение делает работу с огромными массивами данных доступной вне специализированных серверных кластеров, открывая новые возможности для локального запуска сложных моделей. Hacker News · Инференс и железо Оптимизированный фреймворк для запуска DeepSeek V4 на системах DGX Spark Представлен специализированный фреймворк для развертывания моделей семейства DeepSeek V4, адаптированный под архитектуру NVIDIA DGX Spark. Решение фокусируется на повышении эффективности инференса за счет оптимизации работы с памятью и вычислительными ресурсами при использовании специализированных аппаратных ускорителей. The Decoder · Модели и релизы DeepSeek обновила модель V4 Flash: производительность на уровне лидеров при низкой цене Компания DeepSeek выпустила обновление «0731» для своей бюджетной модели V4 Flash, значительно повысив её вычислительные возможности. Согласно данным Artificial Analysis, модель набрала 50 баллов в Intelligence Index, вплотную приблизившись к показателям GPT-5.6 Luna от OpenAI. При этом стоимость выполнения задач с использованием новой версии снизилась примерно на 60% по сравнению с конкурентом. Hacker News · Инференс и железо AMD Lucebox превосходит Nvidia DGX Spark в инференсе DeepSeek V4 Компания Lucebox представила результаты тестирования своей новой архитектуры на базе ускорителей AMD, которая показала 3,63-кратное преимущество в производительности при инференсе модели DeepSeek V4 по сравнению с системой Nvidia DGX Spark. Достижение стало возможным благодаря внедрению асимметричного параллелизма, оптимизирующего распределение вычислительной нагрузки между узлами при работе с крупными языковыми моделями. Hacker News · Инференс и железо Запуск DeepSeek V4 на потребительском железе AMD Ryzen AI Разработчики успешно запустили модель DeepSeek V4 Flash на процессоре AMD Ryzen AI MAX+ 395 (Strix Halo), достигнув скорости генерации до 32 токенов в секунду. Этот результат демонстрирует эффективность работы современных LLM на локальных потребительских чипах с интегрированной графикой, что открывает новые возможности для запуска тяжелых моделей без использования дискретных GPU. Hacker News · Бизнес и инвестиции Инсайты DeepSeek: стратегия развития и технологический стек компании Опубликованная расшифровка встречи инвесторов с сооснователем DeepSeek Ляном Вэньфэном раскрывает ключевые аспекты стратегии компании. Основной упор делается на оптимизацию вычислительных затрат, эффективность обучения моделей и масштабирование инфраструктуры. Руководство компании делает ставку на собственные архитектурные решения, позволяющие достигать высокой производительности при значительно меньших затратах на обучение по сравнению с конкурентами, что меняет экономику разработки LLM.

← Все материалы