Исследователи предложили сместить фокус оценки ИИ-агентов с индивидуальных задач на уровень экосистемы репозитория. Текущие бенчмарки не учитывают кумулятивные ошибки, возникающие при массовой работе агентов над общим кодом. Авторы доказывают, что даже если каждый агент проходит локальные тесты, их совместная деятельность приводит к накоплению критических проблем, которые невозможно выявить при изолированном тестировании.

Проблема заключается в том, что современные методы оценки рассматривают агентов как независимые компоненты, игнорируя контекст совместной разработки. В условиях, когда автономные системы массово создают и объединяют pull-реквесты, ошибки в архитектуре или логике могут оставаться незамеченными, так как ни один отдельный коммит не выглядит дефектным. Это создает риск «экосистемного коллапса» кодовой базы, где совокупность исправных правок нарушает целостность проекта.

Для решения этой задачи предлагается внедрить механизмы контроля на уровне репозитория, а не отдельных агентов. Это требует перехода от оценки производительности конкретного ИИ-инструмента к мониторингу состояния всей кодовой базы в реальном времени. Такой подход позволяет отслеживать долгосрочные изменения и выявлять деградацию системы, вызванную взаимодействием множества автономных агентов в рамках одного проекта.

Ключевые факты

  • Исследование фокусируется на рисках, возникающих при масштабируемой работе автономных агентов в общих репозиториях.
  • Установлено, что индивидуальное прохождение тестов агентами не гарантирует стабильность кодовой базы в долгосрочной перспективе.
  • Предложен переход от оценки отдельных компонентов к анализу рисков на уровне всей экосистемы разработки.
  • Выявлено, что накопление ошибок происходит из-за отсутствия контроля за взаимодействием множества агентов в рамках одного проекта.