Исследователи Unit 42 зафиксировали реальные случаи использования косвенных промпт-инъекций (indirect prompt injection) против ИИ-агентов. Злоумышленники внедряют скрытые инструкции в веб-контент, который затем считывается агентами, заставляя их выполнять несанкционированные действия. Это подтверждает переход теоретических уязвимостей в плоскость практических угроз для автоматизированных систем, использующих LLM для обработки внешних данных.

Суть атаки заключается в том, что ИИ-агент, посещая скомпрометированный или специально подготовленный сайт, воспринимает скрытый текст как системную команду. В отличие от классических инъекций, где пользователь напрямую взаимодействует с моделью, здесь вредоносный код «подбрасывается» через RAG-системы или инструменты веб-скрейпинга. Агенты, обладающие правами на выполнение действий (например, отправку писем или взаимодействие с API), становятся инструментом для реализации атак.

Эксперты отмечают, что текущие архитектуры агентов часто не разделяют данные, полученные из внешних источников, и инструкции пользователя. Это позволяет атакующим манипулировать логикой принятия решений агента, обходя фильтры безопасности. Подобные инциденты подчеркивают необходимость внедрения строгих механизмов изоляции контекста и проверки доверия к источникам данных, которые потребляют ИИ-системы.

Ключевые факты

  • Исследование проведено специалистами подразделения Unit 42 компании Palo Alto Networks.
  • Атаки используют скрытые инструкции в HTML-разметке, которые невидимы для обычных пользователей, но считываются ИИ-агентами.
  • Уязвимость позволяет злоумышленникам перехватывать управление агентом, если он имеет доступ к внешним API или инструментам коммуникации.
  • Основной вектор атаки — использование RAG-систем, которые индексируют вредоносный контент с веб-страниц.
  • Рекомендуемые меры защиты включают внедрение строгой валидации входных данных и ограничение прав доступа агентов к критическим функциям.