Исследовательская организация Epoch AI представила MirrorCode — бенчмарк для оценки способности ИИ-моделей самостоятельно реализовывать крупные программные проекты. В отличие от стандартных тестов на написание отдельных функций, MirrorCode проверяет работу с многофайловыми репозиториями, требующими понимания архитектуры, управления зависимостями и интеграции кода в реальных условиях разработки без участия человека.

Авторы проекта стремятся определить верхний предел автономности современных языковых моделей при решении задач, выходящих за рамки простых алгоритмических упражнений. Тестирование охватывает широкий спектр реальных задач, с которыми сталкиваются инженеры: от рефакторинга существующих библиотек до внедрения новых функциональных модулей в сложные системы. Исследование фокусируется на том, как модели справляются с контекстом большого объема кода и насколько эффективно они поддерживают целостность проекта при внесении изменений.

Результаты бенчмарка позволяют оценить текущий прогресс в области автоматизации программирования и выявить ключевые узкие места, препятствующие созданию полностью автономных систем разработки. Анализ показывает, что способность ИИ к долгосрочному планированию и навигации по сложным кодовым базам остается критическим фактором, ограничивающим масштабируемость ИИ-агентов в профессиональной среде разработки.

Ключевые факты

  • MirrorCode оценивает автономность ИИ на задачах, требующих модификации многофайловых репозиториев.
  • Исследование направлено на определение пределов масштабируемости ИИ в задачах программной инженерии.
  • Бенчмарк включает задачи по интеграции новых функций и рефакторингу, имитирующие реальный рабочий процесс.
  • Проект разработан организацией Epoch AI для анализа прогресса в области автоматизации написания кода.