Исследователи из MIT и других ведущих университетов представили TokenPilot — новый подход к управлению контекстом для LLM-агентов, который решает проблему накопления контекста в длительных сессиях.

Проблема в том, что существующие методы, такие как обрезка текста или динамическое удаление памяти, приводят к изменению последовательностей, что вызывает несоответствия префиксов и инвалидацию кэша. Это создает компромисс между разреженностью текста и эффективностью кэширования.

TokenPilot предлагает более эффективный способ управления контекстом, минимизируя издержки инференса без потери качества. Это особенно важно для разработчиков ИИ-агентов, так как позволяет поддерживать длительные сессии без значительного увеличения затрат на вычисления.

Исследование было опубликовано на arXiv и может быть полезным для команд, работающих над оптимизацией производительности и стоимости своих ИИ-агентов.