Авторы исследования указывают на фундаментальный разрыв между тем, как оцениваются способности ИИ в написании кода, и реальными задачами агентной разработки. Современные бенчмарки, такие как SWE-bench, фокусируются на решении изолированных задач в рамках одного репозитория, где модель должна лишь исправить конкретную ошибку. Однако работа полноценного ИИ-агента требует навыков, которые выходят за рамки простого написания функций: планирования, навигации по сложным кодовым базам, взаимодействия с внешними инструментами и итеративной отладки в условиях неопределенности.
Основная проблема заключается в том, что текущие метрики успеха опираются на прохождение тестов, которые не учитывают стоимость ресурсов, время выполнения и качество архитектурных решений. Агент, способный написать работающий код, но потребляющий избыточное количество токенов или создающий технический долг, в текущих системах оценки получает такой же высокий балл, как и более эффективный алгоритм. Это создает «эффект переобучения» под конкретные тесты, когда модели оптимизируются для прохождения бенчмарков, но теряют способность к автономной работе в реальных корпоративных средах.
Исследователи предлагают пересмотреть подходы к тестированию, сместив фокус с оценки «правильности» кода на оценку «процесса» разработки. Это включает в себя анализ того, как агент использует инструменты отладки, как он справляется с неоднозначными требованиями и насколько эффективно он интегрируется в существующие пайплайны. По мнению авторов, без внедрения многофакторных метрик, учитывающих агентную специфику, прогресс в области автоматизированного программирования останется ограниченным рамками академических задач, не имеющих прямого отражения в индустриальной практике.