Together.ai · 03.03.2026 ·Инференс и железо

CPD-архитектура ускоряет работу LLM с длинными контекстами на 40%

CPD-архитектура ускоряет работу LLM с длинными контекстами на 40%

Together AI представила архитектуру Cache-aware prefill–decode disaggregation (CPD), которая ускоряет обработку длинных контекстов в LLM. Технология разделяет «тёплые» и «холодные» вычисления, что позволяет увеличить пропускную способность на 40% и сократить время до первого токена.

CPD оптимизирует инференс, используя кэширование для повторяющихся запросов. Это особенно важно для задач, требующих обработки больших объёмов данных, таких как анализ длинных текстов или сложные диалоги.

Компания отмечает, что новая архитектура не требует дополнительных вычислительных ресурсов, а лишь перераспределяет нагрузку между серверами. Это делает её доступной для внедрения в существующие системы без значительных затрат.

Together AI планирует интегрировать CPD в свои облачные сервисы, что может сделать работу с LLM более эффективной для бизнеса и исследователей.

Источник: Together.ai

Обсудить с ИИ

Похожие материалы

Hacker News · Инфраструктура для агентов Почему стоит разделять поиск и интерпретацию данных в LLM-приложениях Разработчикам рекомендуется разделять процессы извлечения данных (retrieval) и их интерпретации при работе с LLM. Попытка совместить поиск контекста и генерацию ответа в одном вызове модели часто приводит к снижению точности, галлюцинациям и избыточным затратам токенов. Оптимальный подход предполагает использование специализированных инструментов для поиска и последующую передачу структурированных данных для анализа. Hacker News · Инфраструктура для агентов Cursor и Together AI оптимизировали инференс для ускорения работы ИИ-кодинга Редактор кода Cursor интегрировал облачную инфраструктуру Together AI для обеспечения высокоскоростного инференса моделей в реальном времени. Это партнерство позволило значительно снизить задержки при генерации кода, обеспечивая бесшовный опыт для разработчиков, использующих LLM в IDE. Масштабируемое решение поддерживает работу с тяжелыми моделями, сохраняя высокую скорость отклика при выполнении сложных агентских задач по написанию и рефакторингу программного обеспечения. Hacker News · Инференс и железо Проблема «шумных соседей» при масштабировании LLM При одновременном обслуживании множества пользователей на общих вычислительных мощностях возникает проблема «шумных соседей». Она заключается в том, что запросы с высокой интенсивностью или сложной структурой могут замедлять работу системы для остальных клиентов, потребляя непропорционально большую долю ресурсов GPU. Это приводит к росту задержек и нестабильной производительности сервисов, использующих языковые модели. Hacker News · Инфраструктура для агентов Оптимизация инференса LLM через использование In-Memory слоев Разработчики Mapbox представили метод оптимизации работы с большими языковыми моделями, позволяющий снизить нагрузку на систему за счет использования промежуточных слоев памяти. Подход фокусируется на композиции моделей, где часть вычислений переносится в оперативную память, что позволяет эффективно обрабатывать сложные запросы без необходимости постоянного обращения к тяжелым весам основной модели. Hacker News · Инфраструктура для агентов Оптимизация затрат на LLM через динамическую маршрутизацию запросов Разработан инструмент для автоматической маршрутизации запросов к языковым моделям на основе их стоимости и производительности. Система анализирует входящий промпт и выбирает наиболее экономически эффективную модель, способную справиться с конкретной задачей. Решение интегрируется с библиотеками PydanticAI и LiteLLM, что позволяет разработчикам внедрять логику выбора провайдера непосредственно в пайплайны обработки данных. Hacker News · Инфраструктура для агентов vLLM внедряет архитектуру TileRT для ускорения инференса LLM Команда vLLM представила новую архитектуру инференса, объединяющую фазу prefill в vLLM с механизмом TileRT для этапа decode. Это решение позволяет значительно снизить задержки при генерации длинных последовательностей, разделяя вычислительные задачи между оптимизированными движками. Интеграция направлена на повышение пропускной способности систем при работе с тяжелыми нагрузками в реальном времени. Hacker News · Инференс и железо DualPath: новый метод оптимизации пропускной способности памяти при работе LLM Исследователи представили DualPath — архитектурное решение, устраняющее «узкое горлышко» пропускной способности памяти при инференсе агентных LLM. Метод разделяет потоки данных для обработки весов модели и контекста, что позволяет значительно ускорить генерацию токенов в сценариях с длинным контекстом и частыми обращениями к памяти, характерными для современных автономных агентов. Hacker News · Инференс и железо Оптимизация холодного старта для тяжелых LLM: запуск DeepSeek-V4-Pro за 20 секунд Инженеры Inferize представили решение, позволяющее сократить время холодного старта для крупных языковых моделей до 20 секунд. Технология фокусируется на ускорении загрузки весов модели в GPU-память, что критически важно для серверных инфраструктур, использующих динамическое масштабирование ресурсов для обслуживания запросов к тяжелым LLM в режиме реального времени. Hacker News · Инфраструктура для агентов Новый подход к компиляции для LLM и моделей мира Исследователи представили концепцию специализированного компилятора, предназначенного для оптимизации работы LLM и моделей мира. Система переводит высокоуровневые агентные задачи в эффективный машинный код, минимизируя задержки при выполнении сложных логических цепочек. Это решение направлено на повышение производительности систем, работающих в режиме реального времени, и создание более надежной инфраструктуры для будущих автономных ИИ-агентов. Hacker News · Исследования и наука Анализ избыточности: сколько раз LLM перечитывают один и тот же текст Исследование процесса обработки контекста в больших языковых моделях выявило значительные потери вычислительных ресурсов из-за многократного повторного чтения одних и тех же фрагментов текста. Автор эксперимента замерил количество обращений к токенам при выполнении стандартных задач и обнаружил, что текущие архитектуры тратят избыточное время на переобработку уже известных данных, что напрямую влияет на задержки и стоимость инференса.

← Все материалы