arXiv · 29.06.2026 ·Безопасность и алайнмент

Обнаружение отравления памяти ИИ-агентов через анализ траекторий

Исследователи выявили поведенческий инвариант, позволяющий детектировать попытки отравления памяти LLM-агентов. В архитектурах, где маршрутизация данных происходит через вызовы инструментов памяти, атаки с эксфильтрацией информации демонстрируют специфическую последовательность действий: вызов функции извлечения фактов непосредственно перед отправкой электронных писем. Этот паттерн редко встречается в легитимных сессиях, что делает его надежным индикатором компрометации.

Метод основан на анализе «криминалистических траекторий» (Forensic Trajectory Signatures). Авторы работы доказывают, что для успешного выполнения атаки злоумышленнику необходимо сначала внедрить вредоносные данные в память агента, а затем принудить его к их извлечению и последующей передаче через внешние каналы связи. Наблюдение за последовательностью вызовов API позволяет выявлять такие аномалии в реальном времени без необходимости глубокого анализа содержимого самих данных.

Данный подход предлагает новый способ защиты агентных систем, работающих с RAG-архитектурами и внешними инструментами. Вместо попыток фильтрации входных данных, которые могут быть замаскированы под легитимный контент, система мониторинга отслеживает логику взаимодействия агента с его средой исполнения. Это позволяет блокировать подозрительные цепочки действий до того, как произойдет утечка конфиденциальной информации.

Ключевые факты

Выявлен инвариант: вызов `memory_recall_fact` перед `email_send_email` является ключевым признаком атаки.
Метод фокусируется на анализе последовательности вызовов инструментов, а не на семантике данных.
Предложенный подход эффективен для защиты агентов, использующих RAG и внешние API для коммуникации.
Исследование демонстрирует, что даже при успешном отравлении памяти, вредоносная активность оставляет предсказуемый след в логах выполнения.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Безопасность и алайнмент Зафиксированы первые случаи атак через косвенные промпт-инъекции в реальных ИИ-агентах Исследователи Unit 42 зафиксировали реальные случаи использования косвенных промпт-инъекций (indirect prompt injection) против ИИ-агентов. Злоумышленники внедряют скрытые инструкции в веб-контент, который затем считывается агентами, заставляя их выполнять несанкционированные действия. Это подтверждает переход теоретических уязвимостей в плоскость практических угроз для автоматизированных систем, использующих LLM для обработки внешних данных. Hacker News · Память и RAG Практическое руководство по защите памяти ИИ-агентов от атак Разработчики ИИ-систем сталкиваются с новыми векторами угроз, направленными на долгосрочную память агентов. В статье представлен обзор методов защиты RAG-архитектур от инъекций данных, манипуляций с контекстом и отравления векторных баз. Авторы описывают конкретные стратегии фильтрации входящих данных и проверки целостности памяти, позволяющие минимизировать риски несанкционированного управления поведением агента через скомпрометированные знания. arXiv · Безопасность и алайнмент Исследование безопасности популярных ИИ-агентов Исследователи представили первый комплексный анализ безопасности широко используемых агентных систем, предназначенных для наступательных операций. Работа демонстрирует, что по мере роста автономности агентов их уязвимость к атакам становится критическим фактором. Авторы оценивают риски эксплуатации инфраструктуры агентов и предлагают методологию для выявления векторов атак, которые могут привести к компрометации систем управления и утечке данных. Hacker News · Память и RAG Уязвимости систем памяти ИИ-агентов к отравлению данными Исследователи представили новый бенчмарк для оценки безопасности систем памяти, используемых в ИИ-агентах. Работа фокусируется на уязвимости «отравления фактами» (fact poisoning), при которой злоумышленник внедряет ложную или вредоносную информацию в базу знаний агента. В ходе экспериментов было доказано, что современные системы RAG (Retrieval-Augmented Generation) могут быть скомпрометированы через манипуляцию данными, которые агент извлекает из внешних источников для принятия решений. Hacker News · Безопасность и алайнмент Безопасность ИИ-агентов: почему сканирование уязвимостей требует нового подхода Исследование критикует текущие методы безопасности ИИ-агентов, которые полагаются на простые сканеры уязвимостей. Автор доказывает, что агент, выполняющий задачи, не должен быть одновременно инструментом для поиска дыр в коде. Разделение функций контроля и исполнения критически важно для предотвращения атак типа «отравления» контекста и несанкционированного доступа к системным ресурсам при работе с LLM. Hacker News · Безопасность и алайнмент Уязвимость ИИ-агентов: вредоносный код в GitHub-репозиториях Исследователи обнаружили новый вектор атаки на ИИ-агенты для написания кода. Злоумышленники создают GitHub-репозитории, которые выглядят как легитимные библиотеки, но содержат скрытые инструкции, заставляющие агентов выполнять вредоносные команды. Агенты, полагающиеся на контекст из репозиториев, автоматически включают опасный код в проекты пользователей, что создает серьезные риски для цепочек поставок программного обеспечения. Hacker News · Безопасность и алайнмент Исследование: как пользовательский контент может отравить ИИ-агентов Исследователи из MIT и Университета Карнеги-Меллона опубликовали работу, в которой показано, как пользовательский контент может «отравить» ИИ-агентов, особенно тех, которые работают с глубокими исследованиями. В статье рассматриваются сценарии, в которых злоумышленники могут встраивать вредоносные данные в пользовательские запросы, что приводит к искажению работы агентов. Hacker News · Безопасность и алайнмент Кризис учетных данных в ИИ-агентах: анализ инцидентов за полгода За последние шесть месяцев участились случаи компрометации учетных данных, используемых автономными ИИ-агентами. Исследование DevFortress выявило критические уязвимости в системах управления доступом, где агенты получают избыточные привилегии, что приводит к утечкам данных и несанкционированному выполнению операций. Проблема становится системной по мере интеграции агентов в корпоративные инфраструктуры с доступом к API и облачным ресурсам. Hacker News · Безопасность и алайнмент Agentjacking атаки: как злоумышленники эксплуатируют ИИ-кодинговые агенты Исследователи обнаружили новую угрозу для ИИ-агентов, которая получила название agentjacking. В ходе атаки злоумышленники отправляют поддельные отчёты об ошибках в системы Claude Code и Cursor, заставляя агентов выполнять вредоносный код. Это демонстрирует уязвимость ИИ-агентов, которые могут быть использованы для выполнения несанкционированных действий. arXiv · Память и RAG Исследование: как системы памяти LLM-агентов превращают догадки в ложные факты Исследователи обнаружили, что современные системы управления памятью для ИИ-агентов, такие как mem0 или LangMem, склонны искажать информацию при её сжатии. В процессе переработки диалогов в структурированные «факты» неуверенные или гипотетические высказывания пользователей трансформируются в категоричные утверждения. В результате агенты начинают воспринимать сомнительные данные как верифицированную истину, что критически влияет на их последующие решения.

← Все материалы