arXiv · 02.07.2026 ·Память и RAG

AgenticSTS: новый бенчмарк для тестирования памяти ИИ-агентов

Исследователи представили AgenticSTS — специализированный тестовый стенд для оценки работы памяти LLM-агентов в задачах с длинным горизонтом планирования. В отличие от стандартных методов, просто добавляющих историю взаимодействий в контекст, этот инструмент вводит концепцию ограниченной памяти. Это позволяет изолировать влияние отдельных компонентов памяти на принятие решений и точнее оценивать эффективность стратегий хранения данных в сложных агентных системах.

Традиционные подходы к управлению памятью часто превращают контекстное окно в неструктурированный массив данных, где смешиваются наблюдения, вызовы инструментов и рефлексия. Это затрудняет анализ того, какие именно фрагменты информации влияют на конкретные действия агента. Новый фреймворк предлагает более строгий контракт взаимодействия, где агент вынужден работать с ограниченным объемом данных, что имитирует реальные условия эксплуатации и позволяет проводить контролируемые эксперименты.

Использование AgenticSTS помогает разработчикам выявлять узкие места в архитектурах памяти, где агент теряет критически важную информацию или, наоборот, перегружается нерелевантным контекстом. Инструментарий позволяет количественно измерить, как именно ограничения памяти сказываются на успешности выполнения многошаговых задач, что критически важно для создания надежных автономных систем, работающих в динамических средах.

Ключевые факты

AgenticSTS фокусируется на задачах с длинным горизонтом планирования, где агент должен сохранять контекст на протяжении множества шагов.
Фреймворк заменяет линейное накопление истории на структурированный контракт памяти, ограничивающий доступный объем данных.
Инструмент позволяет изолировать влияние конкретных типов памяти (наблюдения, tool calls, рефлексия) на итоговое решение агента.
Методология направлена на решение проблемы «зашумленного контекста», возникающей при использовании стандартных методов RAG и простого расширения промптов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы