Исследователи поставили под сомнение точность современных бенчмарков для кодинг-агентов, таких как GSO, SWE-Perf и SWE-fficiency. Анализ показал, что текущие метрики часто смешивают реальные улучшения производительности кода с нестабильностью среды выполнения и специфическими особенностями самих тестов. Это ставит под вопрос объективность лидербордов, используемых для оценки прогресса в области автоматизированной разработки ПО.

Авторы работы указывают, что методология оценки, основанная на применении патчей к реальным репозиториям и сравнении времени выполнения с базовыми показателями, подвержена значительным искажениям. Внешние факторы, такие как шум в инфраструктуре тестирования и различия в конфигурациях окружения, могут приводить к ложным результатам, которые интерпретируются как успех или провал агента. В итоге текущие показатели эффективности часто не отражают реальную способность ИИ оптимизировать программный код.

Проблема усугубляется тем, что разработчики агентов начинают оптимизировать свои модели под конкретные метрики бенчмарков, а не под реальные задачи инженерии. Исследование подчеркивает необходимость разработки более устойчивых методов тестирования, которые учитывают вариативность среды и фокусируются на воспроизводимости результатов, а не только на итоговых цифрах в таблицах лидеров.

Ключевые факты

  • Бенчмарки GSO, SWE-Perf и SWE-fficiency используют патчинг реальных репозиториев для оценки производительности.
  • Текущие лидерборды часто не учитывают нестабильность среды выполнения, что искажает итоговые баллы.
  • Оптимизация агентов под специфические метрики бенчмарков снижает их реальную полезность в разработке.
  • Исследование призывает к внедрению более строгих стандартов воспроизводимости для оценки кодинг-агентов.