Разработчики Portkey представили анализ уязвимостей ИИ-агентов, рассматривая их через призму нарушения границ доверия. Основной тезис заключается в том, что любая брешь в безопасности агента — это результат неверного определения прав доступа при взаимодействии с внешними инструментами, API и данными. Для защиты систем предлагается внедрять строгую изоляцию контекста и проверку полномочий на каждом этапе выполнения задач.

В современных агентных архитектурах модель часто получает доступ к широкому набору функций, что создает риски несанкционированного выполнения действий. Проблема усугубляется тем, что агенты могут интерпретировать инструкции пользователя как команды управления, что приводит к атакам типа «prompt injection». Авторы подчеркивают, что доверие к агенту должно быть динамическим и ограничиваться минимально необходимым набором прав для конкретного шага выполнения.

Для минимизации рисков предлагается использовать многоуровневую архитектуру, где каждый инструмент или API-вызов проходит через слой валидации. Это позволяет отделить логику принятия решений от исполнения команд, предотвращая ситуации, когда скомпрометированный промпт дает агенту возможность изменять системные настройки или получать доступ к конфиденциальным базам данных.

Ключевые факты

  • Уязвимости агентов классифицируются как ошибки в управлении границами доверия между моделью и исполняемой средой.
  • Основным вектором атак является неконтролируемое выполнение функций при получении вредоносных инструкций.
  • Рекомендуется внедрение строгой изоляции прав доступа для каждого инструмента, к которому обращается агент.
  • Безопасность системы должна строиться на принципе минимальных привилегий, где агент получает доступ только к тем данным, которые критически важны для текущей операции.