arXiv · 11.06.2026 ·Память и RAG

EvoArena: тестирование памяти ИИ-агентов в динамичных средах

Исследователи из MIT и других ведущих университетов представили EvoArena — новый бенчмарк для оценки способности ИИ-агентов адаптироваться в динамичных средах. Проблема в том, что большинство тестов для LLM-агентов предполагают статичные условия, тогда как реальный мир требует постоянного обновления знаний и навыков.

EvoArena включает 120 задач, которые имитируют реальные сценарии, где условия меняются со временем. Например, агент должен учитывать обновления в API, изменения в правилах или новые данные. Это позволяет оценить, насколько хорошо агент может обновлять свою память и адаптироваться к новым условиям.

Авторы подчёркивают, что для успешного развёртывания агентов в реальном мире необходимо не только изначальное обучение, но и механизмы непрерывного обновления. EvoArena может стать важным инструментом для разработчиков, работающих над памятью и адаптивностью ИИ-агентов.

Для Jarv это особенно важно, так как мы строим агент, который должен работать в реальном мире, где условия постоянно меняются. EvoArena может помочь нам протестировать и улучшить механизмы памяти и адаптации нашего агента.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Оценка и бенчмарки EvoPolicyGym: новый стандарт для оценки автономной эволюции ИИ-агентов Исследователи представили EvoPolicyGym — специализированную среду для тестирования способности ИИ-агентов самостоятельно улучшать исполняемые политики через итеративную обратную связь. В отличие от стандартных тестов, фокусирующихся на финальном результате, этот фреймворк изолирует процесс модификации кода агентом, позволяя количественно оценивать прогресс в обучении и адаптации системы в контролируемых интерактивных условиях. arXiv · Память и RAG Эволюция систем памяти для ИИ-агентов: от RAG к управлению данными Исследователи проанализировали текущее состояние систем памяти для LLM-агентов, отмечая переход от простых RAG-механизмов к полноценным системам управления данными. Современная агентная память требует поддержки жизненного цикла информации: от персистентного хранения и обновления до консолидации знаний. Авторы подчеркивают недостаточность существующих метрик, которые оценивают лишь конечный результат выполнения задачи, игнорируя качество работы самой памяти. Hugging Face - Blog · Оценка и бенчмарки VAKRA: новый бенчмарк для тестирования ИИ-агентов Исследователи из IBM Research представили VAKRA — новый бенчмарк для оценки способностей ИИ-агентов к логическому мышлению, использованию инструментов и обработке ошибок. В отличие от существующих тестов, VAKRA фокусируется на комплексных сценариях, требующих от агентов не только генерации текста, но и выполнения последовательных действий с анализом промежуточных результатов. Hacker News · Оценка и бенчмарки Agent Arena: новый бенчмарк для оценки онбординга ИИ-агентов Проект Agent Arena представил платформу для оценки того, насколько эффективно ИИ-агенты справляются с задачами по настройке и освоению инструментов разработки. Система использует изолированные «песочницы», чтобы измерить способность моделей самостоятельно разворачивать окружение, устанавливать зависимости и выполнять инструкции в реальных условиях разработки, предоставляя объективные метрики для сравнения производительности различных агентных систем. Hacker News · Память и RAG CLI-агент с памятью и адаптивным поведением Команда Vektor Memory представила новую версию своего CLI-агента, который становится умнее с каждым использованием. Это достигнуто благодаря интеграции механизмов памяти и адаптивного обучения, что позволяет агенту запоминать контекст и улучшать свои ответы со временем. Hacker News · Память и RAG Исследование: случайный прорыв в памяти ИИ-агентов Исследователи из Coder Company случайно достигли нового уровня в области памяти ИИ-агентов, используя подход, основанный на AI-компаньонах. В ходе эксперимента они обнаружили, что агенты, взаимодействующие друг с другом, способны сохранять и использовать информацию более эффективно, чем традиционные методы. Hacker News · Оценка и бенчмарки VetoBench: новый стандарт оценки памяти ИИ-агентов VetoBench — это специализированный бенчмарк, предназначенный для оценки того, как ИИ-агенты управляют памятью и контекстом в долгосрочных задачах. В отличие от традиционных RAG-систем, которые фокусируются на поиске информации, VetoBench тестирует способность модели удерживать, обновлять и использовать накопленные данные для принятия последовательных решений в динамических сценариях, выходя за рамки простого извлечения документов из базы. Microsoft Research · Память и RAG EvoLib: новый подход к накоплению опыта и адаптации LLM Microsoft Research представила EvoLib — библиотеку для динамического накопления знаний, позволяющую моделям извлекать полезные навыки из прошлых задач. В отличие от статических баз данных, EvoLib трансформирует накопленный опыт в структурированные знания, которые помогают ИИ адаптироваться к новым сценариям после завершения этапа обучения, обеспечивая непрерывное развитие навыков без необходимости полной переподготовки модели. Hacker News · Оценка и бенчмарки Новый подход к оценке эволюции агентных систем Исследователи представили методологию переосмысления оценки эволюции агентных систем, направленную на решение проблем нестабильности существующих бенчмарков. Авторы анализируют, как именно меняются способности агентов при итеративном дообучении и изменении архитектуры, предлагая более строгие метрики для отслеживания прогресса в выполнении сложных многошаговых задач, что позволяет точнее прогнозировать реальную производительность ИИ-агентов в динамических средах. arXiv · Память и RAG DYNA: динамическая память для ИИ-агентов на основе временных графов Исследователи из MIT и других университетов предложили фреймворк DYNA, который решает проблему забывания знаний у больших языковых моделей (LLM). DYNA использует временной знаний граф, где события — это узлы, а временные отношения — направленные, временно помеченные рёбра. Этот граф служит внешней, обновляемой памятью, что позволяет LLM работать с новыми данными без переобучения.

← Все материалы