Исследователи представили анализ эффективности защитных стратегий против автоматизированных атак на агентные системы. Современные ИИ-агенты активно используют языковые модели для интерпретации инструкций, обработки внешних данных и взаимодействия с инструментами. Это расширяет поверхность атаки, позволяя злоумышленникам применять автоматизированные методы для масштабирования промпт-инъекций и подбора обходов ограничений безопасности.

В работе рассматривается концепция «защитного введения в заблуждение» (defensive misdirection) как способа противодействия атакам, управляемым моделями. Авторы изучают, как агенты могут использовать динамическую перенаправленность ответов и ложные контекстные данные, чтобы сбить с толку автоматизированные системы оценки атакующих. Это позволяет усложнить процесс итеративного уточнения промптов, который используют злоумышленники для поиска уязвимостей в логике агента.

Результаты исследования подчеркивают необходимость перехода от статических фильтров безопасности к адаптивным методам защиты. Поскольку атакующие все чаще применяют специализированные модели для поиска слабых мест в агентных цепочках, защита должна учитывать контекст взаимодействия и способность агента распознавать попытки автоматизированного зондирования. Предложенный подход демонстрирует потенциал в снижении успешности атак при сохранении функциональности агентных систем.