arXiv · 02.07.2026 ·Исследования и наука

Исследование: качество кода ИИ-агентов зависит от усилий на рассуждение, а не от инструментов

Новое исследование ставит под сомнение эффективность расширения функционала ИИ-агентов для написания кода. Анализ 90 независимых запусков показал, что доступ к дополнительным инструментам, таким как браузерное тестирование, не гарантирует успех. Ключевым фактором надежности результата является объем вычислительных усилий, затраченных моделью на логические рассуждения в процессе генерации, а не количество доступных внешних сервисов.

В ходе эксперимента агенты создавали приложение для ретроспективного анализа в реальном времени на основе единой спецификации. Каждая итерация оценивалась по 14 критериям качества. Результаты опровергают распространенное мнение, что добавление специализированных инструментов или усложнение системных промптов автоматически ведет к созданию более качественного программного обеспечения. Вместо этого авторы подчеркивают важность стратегий, стимулирующих модель «глубже думать» перед написанием каждой строки кода.

Полученные данные указывают на необходимость пересмотра подходов к разработке агентных систем. Вместо бесконечного расширения стека инструментов разработчикам стоит сосредоточиться на методах, которые увеличивают время на размышление (reasoning time) и позволяют модели проверять свои логические цепочки. Это позволяет достичь высокой надежности с первой попытки, что критически важно для автоматизации сложных инженерных задач.

Ключевые факты

В исследовании проанализировано 90 независимых запусков ИИ-агентов для создания одного и того же приложения.
Качество кода оценивалось по фиксированной шкале из 14 критериев.
Доступ к инструментам тестирования и сложным системным промптам не показал прямой корреляции с повышением надежности кода.
Основным драйвером успеха признаны усилия модели на этапе рассуждения (reasoning effort).
Результаты опубликованы на платформе arXiv и ставят под сомнение текущую стратегию «навешивания» дополнительных функций на агентов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Исследования и наука Исследование: эффективность ИИ-агентов в автоматизации ревью кода Новое исследование, опубликованное на платформе arXiv, анализирует потенциал специализированных ИИ-агентов в процессе проверки программного кода. Авторы работы сравнивают качество и скорость поиска уязвимостей, логических ошибок и несоответствий стандартам разработки при участии автоматизированных систем и квалифицированных инженеров. Результаты показывают, что современные агентные архитектуры способны обнаруживать критические дефекты с точностью, сопоставимой с экспертной оценкой, при значительном сокращении времени ожидания обратной связи. Hacker News · Оркестрация агентов Методология ревью кода, написанного ИИ-агентами Разработка сложных агентных систем требует перехода от модели «запустил и забыл» к строгому контролю качества кода, генерируемого моделями. Основная проблема заключается в том, что агенты часто создают рабочие, но архитектурно слабые решения, которые сложно поддерживать в долгосрочной перспективе. Для решения этой задачи внедряется многоуровневый процесс проверки, где человек выступает в роли архитектора, анализирующего логику выполнения задач и структуру создаваемых модулей. Hacker News · ИИ в бизнесе Почему для ИИ-агентов в разработке важна проверка доказательств, а не только дешевый роутинг Разработчики ИИ-агентов для написания кода часто фокусируются на снижении затрат через оптимизацию маршрутизации запросов между моделями. Однако такой подход игнорирует критическую проблему: качество и верификацию генерируемого кода. Вместо погони за дешевизной инженерам следует внедрять системы «доказательного» ревью, которые проверяют работоспособность кода до его интеграции в кодовую базу, обеспечивая реальную надежность продукта. Hacker News · ИИ в бизнесе Проблемы сопровождения кода, написанного ИИ-агентами Разработчики сталкиваются с трудностями при поддержке кодовых баз, созданных с помощью ИИ-агентов. Основная проблема заключается в отсутствии у ИИ долгосрочного понимания архитектуры проекта, что приводит к появлению «спагетти-кода», накоплению технического долга и сложности внесения изменений в будущем. Автоматизация генерации кода требует новых подходов к контролю качества и системному проектированию. Hacker News · Исследования и наука Исследование OpenAI: переход от простых LLM к агентным системам Анализ данных платформы Codex демонстрирует фундаментальный сдвиг в использовании ИИ: разработчики всё чаще делегируют моделям выполнение многошаговых задач. Вместо разовых запросов пользователи переходят к агентным паттернам, где ИИ самостоятельно планирует действия и взаимодействует с внешними инструментами. Это меняет требования к архитектуре моделей, смещая фокус с генерации текста на надежность выполнения последовательных операций. Hacker News · Инфраструктура для агентов Инженерные подходы к повышению надежности ИИ-агентов Современные инструменты для автоматизации разработки, такие как Claude Code и Codex, используют специфические инженерные паттерны для повышения эффективности автономных агентов. В основе их работы лежит концепция итеративного выполнения задач, где агент не просто генерирует код, а взаимодействует с окружением через контролируемые интерфейсы. Это позволяет системе самостоятельно исправлять ошибки на основе сообщений компилятора или тестов, минимизируя необходимость вмешательства человека на промежуточных этапах. Hacker News · Исследования и наука Исследование: экспертиза в программировании сохраняется даже при использовании ИИ-агентов Исследователи из Anthropic провели эксперимент, чтобы оценить, как ИИ-агенты влияют на экспертизу в программировании. Участники с разным уровнем навыков использовали ИИ-агента для решения задач по кодингу. Результаты показали, что даже при помощи ИИ опытные разработчики демонстрировали лучшие результаты, чем новички. Hacker News · ИИ в бизнесе Почему ИИ-агентам в разработке необходим независимый аудит кода По мере того как ИИ-агенты берут на себя написание кода, возрастает риск накопления технического долга и скрытых уязвимостей. Автоматизированные системы часто склонны к галлюцинациям и игнорированию архитектурных стандартов проекта. Для обеспечения безопасности и качества ПО требуется внедрение независимого механизма проверки, который выступает в роли «второго мнения», отделенного от процесса генерации кода. Hacker News · ИИ в бизнесе Почему проверка кода стала главным препятствием при использовании ИИ-агентов Исследования показывают, что основной проблемой при внедрении ИИ-агентов в разработку стала не скорость генерации кода, а затраты времени на его верификацию. Разработчики тратят больше ресурсов на аудит и исправление ошибок, созданных ИИ, чем на написание кода с нуля. Это явление получило название «налог на аудит», который нивелирует прирост продуктивности от автоматизации. Hacker News · Оркестрация агентов Проблема надежности тестирования ИИ-агентов в сложных средах Разработка надежных ИИ-агентов сталкивается с критическим барьером: традиционные методы тестирования часто оказываются неэффективными или даже вредоносными при работе с непредсказуемыми агентными системами. Автор анализирует кейс, где автоматизированный набор тестов привел к инциденту в продакшене, подчеркивая, что в агентных архитектурах границы между тестовой средой и реальным окружением становятся критически важными для предотвращения каскадных сбоев.

← Все материалы