Новое исследование ставит под сомнение эффективность расширения функционала ИИ-агентов для написания кода. Анализ 90 независимых запусков показал, что доступ к дополнительным инструментам, таким как браузерное тестирование, не гарантирует успех. Ключевым фактором надежности результата является объем вычислительных усилий, затраченных моделью на логические рассуждения в процессе генерации, а не количество доступных внешних сервисов.

В ходе эксперимента агенты создавали приложение для ретроспективного анализа в реальном времени на основе единой спецификации. Каждая итерация оценивалась по 14 критериям качества. Результаты опровергают распространенное мнение, что добавление специализированных инструментов или усложнение системных промптов автоматически ведет к созданию более качественного программного обеспечения. Вместо этого авторы подчеркивают важность стратегий, стимулирующих модель «глубже думать» перед написанием каждой строки кода.

Полученные данные указывают на необходимость пересмотра подходов к разработке агентных систем. Вместо бесконечного расширения стека инструментов разработчикам стоит сосредоточиться на методах, которые увеличивают время на размышление (reasoning time) и позволяют модели проверять свои логические цепочки. Это позволяет достичь высокой надежности с первой попытки, что критически важно для автоматизации сложных инженерных задач.

Ключевые факты

  • В исследовании проанализировано 90 независимых запусков ИИ-агентов для создания одного и того же приложения.
  • Качество кода оценивалось по фиксированной шкале из 14 критериев.
  • Доступ к инструментам тестирования и сложным системным промптам не показал прямой корреляции с повышением надежности кода.
  • Основным драйвером успеха признаны усилия модели на этапе рассуждения (reasoning effort).
  • Результаты опубликованы на платформе arXiv и ставят под сомнение текущую стратегию «навешивания» дополнительных функций на агентов.