Together AI представила архитектуру Cache-aware prefill–decode disaggregation (CPD), которая ускоряет обработку длинных контекстов в LLM. Технология разделяет «тёплые» и «холодные» вычисления, что позволяет увеличить пропускную способность на 40% и сократить время до первого токена.
CPD оптимизирует инференс, используя кэширование для повторяющихся запросов. Это особенно важно для задач, требующих обработки больших объёмов данных, таких как анализ длинных текстов или сложные диалоги.
Компания отмечает, что новая архитектура не требует дополнительных вычислительных ресурсов, а лишь перераспределяет нагрузку между серверами. Это делает её доступной для внедрения в существующие системы без значительных затрат.
Together AI планирует интегрировать CPD в свои облачные сервисы, что может сделать работу с LLM более эффективной для бизнеса и исследователей.
