Исследователи выявили критический вектор атаки на ИИ-агентов, использующих внешние плагины и инструменты. Злоумышленники могут внедрять вредоносные навыки в репозитории, которые не содержат явного эксплойта, но манипулируют логикой агента через манипуляцию метаданными. Это позволяет перехватывать управление, красть данные или выполнять несанкционированные действия, обходя стандартные фильтры безопасности на этапе статического анализа кода.
Проблема заключается в том, что современные системы оркестрации агентов часто доверяют описаниям функций (tool definitions), которые предоставляются внешними сервисами. Атакующий создает навык с «безопасным» кодом, но с тщательно проработанным описанием, которое заставляет LLM интерпретировать вызовы функций непредсказуемым образом. В результате агент передает конфиденциальные данные или выполняет команды, не заложенные в исходный сценарий работы.
Этот метод атак на цепочки поставок (Supply Chain Attacks) особенно опасен для агентных платформ, где интеграции добавляются динамически. Традиционные методы защиты, такие как проверка кода или песочницы, оказываются неэффективными, так как сам код инструмента может быть легитимным, а вредоносный эффект достигается за счет манипуляции контекстом выполнения и промптами, которые агент получает при обращении к внешнему API.
Ключевые факты
- Атака использует манипуляцию описаниями функций (tool definitions) вместо внедрения вредоносного кода в тело функции.
- Уязвимость позволяет обходить системы статического анализа, так как «полезная нагрузка» отсутствует в исполняемом коде.
- Метод нацелен на агентные системы, которые автоматически подключают внешние инструменты из публичных или сторонних репозиториев.
- Исследование демонстрирует возможность кражи токенов, перехвата управления и выполнения несанкционированных API-запросов от имени агента.
- Рекомендуется внедрение строгой валидации семантики описаний инструментов и ограничение прав доступа агентов к чувствительным данным.