Разработчики платформы Tabstack представили комплексный подход к защите ИИ-агентов от непрямых промпт-инъекций. Этот тип уязвимостей возникает, когда агент считывает внешний контент — например, содержимое веб-страниц или документов, — содержащий скрытые инструкции, которые пытаются перехватить управление или изменить логику работы системы. Проблема становится критической для автономных агентов, которые активно взаимодействуют с неконтролируемыми данными из интернета.
Техническое решение базируется на строгом разделении контекста, который агент получает из доверенных источников, и данных, поступающих извне. Система использует многоуровневую фильтрацию, при которой внешний контент проходит предварительную обработку и очистку перед тем, как попасть в промпт модели. Это позволяет исключить выполнение вредоносных команд, внедренных в метаданные или скрытый текст страниц, которые могут быть интерпретированы моделью как системные указания.
Помимо фильтрации, внедряется механизм верификации действий агента, который требует подтверждения операций, затрагивающих критические функции или доступ к данным пользователя. Такой подход минимизирует риск выполнения несанкционированных действий даже в случае успешного обхода первичных фильтров. Разработчики подчеркивают, что безопасность агентных систем требует перехода от доверия к входным данным к модели «нулевого доверия», где любой внешний контент рассматривается как потенциально опасный вектор атаки.