arXiv · 15.06.2026 ·Память и RAG

TokenPilot: эффективное управление контекстом для LLM-агентов

Исследователи из MIT и других ведущих университетов представили TokenPilot — новый подход к управлению контекстом для LLM-агентов, который решает проблему накопления контекста в длительных сессиях.

Проблема в том, что существующие методы, такие как обрезка текста или динамическое удаление памяти, приводят к изменению последовательностей, что вызывает несоответствия префиксов и инвалидацию кэша. Это создает компромисс между разреженностью текста и эффективностью кэширования.

TokenPilot предлагает более эффективный способ управления контекстом, минимизируя издержки инференса без потери качества. Это особенно важно для разработчиков ИИ-агентов, так как позволяет поддерживать длительные сессии без значительного увеличения затрат на вычисления.

Исследование было опубликовано на arXiv и может быть полезным для команд, работающих над оптимизацией производительности и стоимости своих ИИ-агентов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Память и RAG ContextRL: контекст-осознанное обучение для улучшения работы ИИ-агентов Исследователи из MIT и других ведущих университетов представили новый метод ContextRL, который улучшает способность языковых моделей (LLM) работать с длинными и сложными контекстами. Проблема заключается в том, что традиционные LLM часто не могут выделить ключевые детали в объемных данных, будь то строка в логах или мелкий элемент на изображении. ContextRL использует методы подкрепляющего обучения (RL), чтобы улучшить долгосрочное рассуждение и работу с мультимодальными данными. Hacker News · Инфраструктура для агентов Оптимизация расходов на токены в LLM-приложениях Разработчики часто переплачивают за использование API больших языковых моделей из-за неэффективного управления контекстом и избыточных запросов. Инструмент TokenDiet предлагает решение для анализа и оптимизации потребления токенов, позволяя снизить операционные расходы на ИИ-сервисы. Сервис помогает выявлять «тяжелые» промпты и неоптимальные паттерны взаимодействия с моделями, что напрямую влияет на стоимость масштабирования агентных систем. Hacker News · Инфраструктура для агентов Легковесный системный промпт для удержания контекста ИИ-агентами Разработчики представили компактное решение для борьбы с потерей контекста в работе ИИ-агентов. Метод основан на использовании минималистичного системного промпта без внешних зависимостей, который принудительно структурирует память модели и предотвращает «галлюцинации» или забывание ключевых инструкций в ходе длительных диалогов, что критически важно для стабильной работы автономных систем. Hacker News · Инфраструктура для агентов CachePilot: прокси-сервис для кеширования API-запросов к LLM CachePilot — это прокси-сервис для кеширования API-запросов к LLM, который позволяет снизить затраты на инференс за счет повторного использования ответов на идентичные или семантически близкие запросы. Модель монетизации проекта основана на разделении сэкономленных средств: пользователи платят 20% от суммы, которую удалось сэкономить благодаря кешированию, что делает решение привлекательным для высоконагруженных агентных систем. arXiv · Память и RAG ACE: новый метод адаптивного управления контекстом для ИИ-агентов Исследователи представили ACE (Adaptive Context Elasticizer) — фреймворк для динамического управления контекстом в ИИ-агентах. В отличие от стандартных методов обрезки или суммаризации, ACE позволяет гибко сжимать и восстанавливать информацию в зависимости от сложности задачи. Это решает проблему ограниченного контекстного окна LLM при выполнении длинных цепочек рассуждений, сохраняя критически важные данные для агента. Hacker News · Инфраструктура для агентов Субмодулярный отбор контекста для оптимизации работы LLM-агентов Исследователи представили метод субмодулярного отбора контекста, который позволяет динамически выбирать наиболее релевантную информацию для LLM-агентов. Этот подход выступает в роли подключаемого модуля, оптимизирующего подачу данных в контекстное окно. Технология позволяет агентам эффективнее обрабатывать длинные последовательности, снижая количество избыточных токенов и повышая точность ответов при работе со сложными задачами. Hacker News · Инфраструктура для агентов Почему бесконечный контекст — не лучшее решение для ИИ-агентов в программировании Увеличение контекстного окна LLM не решает проблему эффективности ИИ-агентов при работе с крупными кодовыми базами. Вместо загрузки миллионов токенов в память, авторы предлагают сфокусироваться на архитектуре с активным поиском и структурированным доступом к данным. Такой подход позволяет агентам точнее находить нужные фрагменты кода, снижая затраты на инференс и повышая качество генерации. Hacker News · Инфраструктура для агентов SteerPlane: open-source инструмент для контроля выполнения ИИ-агентов SteerPlane — это open-source решение для обеспечения безопасности и контроля выполнения ИИ-агентов в режиме реального времени. Инструмент позволяет разработчикам внедрять «защитные барьеры» (guardrails) непосредственно в процесс работы агента, предотвращая нежелательные действия, утечки данных или выход за рамки заданных инструкций во время выполнения цепочек рассуждений. Hacker News · Инференс и железо DualPath: новый метод оптимизации пропускной способности памяти при работе LLM Исследователи представили DualPath — архитектурное решение, устраняющее «узкое горлышко» пропускной способности памяти при инференсе агентных LLM. Метод разделяет потоки данных для обработки весов модели и контекста, что позволяет значительно ускорить генерацию токенов в сценариях с длинным контекстом и частыми обращениями к памяти, характерными для современных автономных агентов. arXiv · Обучение и дообучение Непрерывное дообучение LLM-агентов в процессе выполнения задач Исследователи представили метод Agentic Test-Time Training (TTT), позволяющий LLM-агентам адаптировать веса модели непосредственно во время выполнения многошаговых задач. В отличие от стандартных подходов, обновляющих модель один раз, этот метод обеспечивает непрерывную корректировку стратегии агента, предотвращая деградацию производительности, зацикливание на пройденных состояниях и потерю эффективных алгоритмов при работе над длинными траекториями.

← Все материалы