Исследователи выявили поведенческий инвариант, позволяющий детектировать попытки отравления памяти LLM-агентов. В архитектурах, где маршрутизация данных происходит через вызовы инструментов памяти, атаки с эксфильтрацией информации демонстрируют специфическую последовательность действий: вызов функции извлечения фактов непосредственно перед отправкой электронных писем. Этот паттерн редко встречается в легитимных сессиях, что делает его надежным индикатором компрометации.
Метод основан на анализе «криминалистических траекторий» (Forensic Trajectory Signatures). Авторы работы доказывают, что для успешного выполнения атаки злоумышленнику необходимо сначала внедрить вредоносные данные в память агента, а затем принудить его к их извлечению и последующей передаче через внешние каналы связи. Наблюдение за последовательностью вызовов API позволяет выявлять такие аномалии в реальном времени без необходимости глубокого анализа содержимого самих данных.
Данный подход предлагает новый способ защиты агентных систем, работающих с RAG-архитектурами и внешними инструментами. Вместо попыток фильтрации входных данных, которые могут быть замаскированы под легитимный контент, система мониторинга отслеживает логику взаимодействия агента с его средой исполнения. Это позволяет блокировать подозрительные цепочки действий до того, как произойдет утечка конфиденциальной информации.
Ключевые факты
- Выявлен инвариант: вызов `memory_recall_fact` перед `email_send_email` является ключевым признаком атаки.
- Метод фокусируется на анализе последовательности вызовов инструментов, а не на семантике данных.
- Предложенный подход эффективен для защиты агентов, использующих RAG и внешние API для коммуникации.
- Исследование демонстрирует, что даже при успешном отравлении памяти, вредоносная активность оставляет предсказуемый след в логах выполнения.