Разработчики представили подход к оценке качества работы долговременной памяти (persistent memory) в ИИ-агентах, предназначенных для написания и редактирования кода. Методика фокусируется на способности моделей сохранять контекст репозитория и точно воспроизводить изменения в проектах, что является критическим фактором для автоматизации сложных задач разработки и минимизации галлюцинаций при работе с большими кодовыми базами.

Основная проблема существующих бенчмарков заключается в их ориентации на разовые запросы, тогда как реальная работа агента требует удержания состояния проекта на протяжении множества итераций. Предложенный метод использует специализированные наборы данных, которые имитируют процесс внесения правок в реальные репозитории, проверяя, насколько эффективно модель ориентируется в структуре файлов и учитывает зависимости между ними после длительного взаимодействия.

Такой подход позволяет количественно измерить «память» агента, оценивая точность внесения изменений в файлы, которые не были частью текущего контекстного окна, но критически важны для целостности проекта. Это помогает разработчикам инструментов для кодинга лучше понимать ограничения моделей и настраивать механизмы RAG или кэширования для повышения стабильности агентных систем.

Ключевые факты

  • Методика оценивает способность агента поддерживать консистентность кода при многошаговых задачах.
  • Тестирование включает проверку точности навигации по сложным файловым структурам репозитория.
  • Бенчмарк направлен на выявление ошибок, возникающих при потере контекста в долгосрочных сессиях разработки.
  • Подход позволяет сравнивать эффективность различных стратегий управления памятью и индексации кода для ИИ-ассистентов.