Исследователи изучили качество тестов, генерируемых ИИ-агентами в открытых репозиториях. Оказалось, что более 932 000 пулл-реквестов с кодом от ИИ содержат тесты без проверочной логики. Это значит, что тесты просто запускают код, но не проверяют его корректность.

Авторы работы проанализировали более 116 000 репозиториев. Они обнаружили, что многие тесты, созданные ИИ, не содержат явных утверждений (assertions). Такие тесты не выполняют свою основную функцию — проверку работоспособности кода.

Исследование показывает, что тесты от ИИ-агентов часто оказываются «пустышками». Это может снижать качество программного обеспечения, если разработчики не проверяют сгенерированный код вручную.

Результаты работы подчёркивают необходимость более строгого контроля за кодом, создаваемым ИИ. Исследователи предлагают улучшать алгоритмы генерации тестов, чтобы они включали проверочную логику.