Исследователи продемонстрировали методы обхода механизмов безопасности в больших языковых моделях, используемых для автоматического сканирования кода. Манипулируя промптами, злоумышленники могут заставить ИИ игнорировать наличие вредоносного ПО в анализируемых фрагментах. Это создает серьезные риски для инструментов безопасности, полагающихся на LLM для выявления уязвимостей и бэкдоров в программном обеспечении.

Проблема заключается в том, что модели часто отдают приоритет выполнению инструкций пользователя над встроенными фильтрами безопасности. В ходе экспериментов удалось успешно скрыть вредоносные конструкции, замаскировав их под легитимные функции или изменив контекст запроса. Это ставит под сомнение надежность текущих систем автоматизированного аудита кода, которые внедряются в CI/CD пайплайны для защиты цепочек поставок ПО.

Подобные атаки типа «jailbreak» нацелены на то, чтобы снизить бдительность модели при проверке подозрительных паттернов. В условиях, когда разработчики все чаще доверяют ИИ-ассистентам проверку безопасности, подобные уязвимости позволяют внедрять скрытый вредоносный код, который остается незамеченным стандартными средствами статического анализа.

Ключевые факты

  • Метод позволяет обходить фильтры безопасности LLM, скрывая вредоносный код при сканировании.
  • Атаки эксплуатируют приоритет инструкций пользователя над правилами безопасности модели.
  • Уязвимость ставит под угрозу автоматизированные системы проверки кода в процессах разработки.
  • Исследование подчеркивает необходимость многоуровневой защиты, не полагающейся исключительно на LLM-анализ.