Разработчики представили подход к оценке качества работы долговременной памяти (persistent memory) в ИИ-агентах, предназначенных для написания и редактирования кода. Методика фокусируется на способности моделей сохранять контекст репозитория и точно воспроизводить изменения в проектах, что является критическим фактором для автоматизации сложных задач разработки и минимизации галлюцинаций при работе с большими кодовыми базами.
Основная проблема существующих бенчмарков заключается в их ориентации на разовые запросы, тогда как реальная работа агента требует удержания состояния проекта на протяжении множества итераций. Предложенный метод использует специализированные наборы данных, которые имитируют процесс внесения правок в реальные репозитории, проверяя, насколько эффективно модель ориентируется в структуре файлов и учитывает зависимости между ними после длительного взаимодействия.
Такой подход позволяет количественно измерить «память» агента, оценивая точность внесения изменений в файлы, которые не были частью текущего контекстного окна, но критически важны для целостности проекта. Это помогает разработчикам инструментов для кодинга лучше понимать ограничения моделей и настраивать механизмы RAG или кэширования для повышения стабильности агентных систем.
Ключевые факты
- Методика оценивает способность агента поддерживать консистентность кода при многошаговых задачах.
- Тестирование включает проверку точности навигации по сложным файловым структурам репозитория.
- Бенчмарк направлен на выявление ошибок, возникающих при потере контекста в долгосрочных сессиях разработки.
- Подход позволяет сравнивать эффективность различных стратегий управления памятью и индексации кода для ИИ-ассистентов.