Компания Snyk представила результаты анализа безопасности плагинов для ИИ-агентов, выявив критические уязвимости в 36% изученных компонентов. Исследование показало, что злоумышленники могут использовать инъекции промптов для обхода ограничений безопасности, что позволяет агентам выполнять несанкционированные действия, красть данные или манипулировать поведением системы в обход заданных инструкций разработчика.

Анализ проводился на примере платформы ToxicSkills, где эксперты протестировали широкий спектр инструментов, интегрируемых с LLM. Выяснилось, что большинство плагинов не имеют встроенных механизмов фильтрации входящих запросов, что делает их легкой мишенью для атак типа «jailbreak». В условиях, когда агенты получают доступ к API и внутренним базам данных компаний, такие уязвимости создают серьезные риски для корпоративной безопасности.

Проблема усугубляется тем, что разработчики часто доверяют выводам моделей, не проверяя их на соответствие политикам безопасности. В ходе тестов исследователи продемонстрировали, как с помощью специально сформированных промптов можно заставить агента передать конфиденциальную информацию на сторонний сервер или выполнить вредоносную команду в инфраструктуре пользователя. Это подчеркивает необходимость внедрения строгих протоколов валидации для всех внешних расширений и навыков, подключаемых к агентным системам.

Ключевые факты

  • 36% проанализированных плагинов оказались подвержены атакам через инъекции промптов.
  • Исследование базируется на анализе платформы ToxicSkills, имитирующей среду разработки ИИ-агентов.
  • Основной вектор атаки заключается в манипуляции контекстом, который агент передает в API сторонних сервисов.
  • Эксперты Snyk подчеркивают, что текущие стандарты безопасности не успевают за темпами интеграции новых плагинов в агентные экосистемы.