Исследователи протестировали способность современных LLM соблюдать строгие архитектурные правила при генерации кода. Результаты показали, что даже передовые модели, такие как Claude 3 Opus, нарушают заданные ограничения в 60% случаев. Это ставит под сомнение надежность использования ИИ для автоматизированного проектирования сложных систем без жесткого контроля и дополнительных механизмов валидации.

В ходе эксперимента авторы предлагали моделям задачи на проектирование, требующие соблюдения специфических паттернов, таких как разделение ответственности между компонентами или запрет на прямые вызовы определенных модулей. Несмотря на высокую логическую связность ответов, модели часто игнорировали структурные требования, отдавая предпочтение наиболее вероятным последовательностям токенов, а не заданным правилам архитектуры.

Данная проблема критична для разработки корпоративного ПО, где нарушение архитектурных принципов ведет к накоплению технического долга и уязвимостей. Исследование подчеркивает разрыв между способностью моделей писать рабочий код и их умением придерживаться высокоуровневых инженерных стандартов, что требует внедрения автоматизированных линтеров и статических анализаторов в пайплайны генерации кода.

Ключевые факты

  • Claude 3 Opus, одна из самых мощных моделей на рынке, нарушала архитектурные правила в 60% тестовых сценариев.
  • Эксперимент сфокусирован на способности ИИ следовать жестким структурным ограничениям, а не на качестве синтаксиса или логики кода.
  • Основная причина неудач заключается в том, что вероятностная природа LLM часто перевешивает заданные системные инструкции при выборе архитектурных решений.
  • Результаты указывают на необходимость использования инструментов статического анализа для проверки результатов работы ИИ на соответствие проектным требованиям.