Разработчики представили решение, позволяющее сократить потребление токенов более чем на 60% при выполнении агентных задач. Основной принцип работы заключается в автоматическом выявлении и удалении избыточного, повторяющегося контекста, который часто накапливается в ходе многошаговых рассуждений или длительных сессий взаимодействия с языковыми моделями.

В агентных сценариях модели часто перегружаются дублирующейся системной информацией или историей действий, что не только увеличивает стоимость инференса, но и может приводить к снижению качества ответов из-за «зашумления» контекстного окна. Новый подход анализирует поток данных в реальном времени и оставляет только уникальные фрагменты, необходимые для принятия решений, что позволяет эффективнее использовать лимиты моделей.

Данная технология ориентирована на оптимизацию инфраструктуры для сложных агентных систем, где стоимость обработки токенов является критическим фактором масштабируемости. Уменьшение объема передаваемых данных позволяет не только снизить счета за использование API, но и ускорить время отклика агентов, сохраняя при этом точность выполнения поставленных задач.