Исследователи представили новый бенчмарк для оценки безопасности систем памяти, используемых в ИИ-агентах. Работа фокусируется на уязвимости «отравления фактами» (fact poisoning), при которой злоумышленник внедряет ложную или вредоносную информацию в базу знаний агента. В ходе экспериментов было доказано, что современные системы RAG (Retrieval-Augmented Generation) могут быть скомпрометированы через манипуляцию данными, которые агент извлекает из внешних источников для принятия решений.

Бенчмарк позволяет воспроизводимо тестировать различные архитектуры памяти на устойчивость к инъекциям ложных данных. Авторы демонстрируют, как агент, полагающийся на внешнюю базу, начинает транслировать дезинформацию или выполнять ошибочные действия, если в его «память» попадают специально подготовленные фрагменты текста. Это создает серьезные риски для автономных систем, которые используют RAG для работы с динамическими данными в реальном времени.

Результаты исследования подчеркивают необходимость внедрения механизмов верификации и фильтрации данных на этапе их индексации и извлечения. Разработчикам предлагается использовать предложенный набор тестов для проверки своих систем на предмет того, насколько легко агент может быть введен в заблуждение при взаимодействии с неконтролируемыми источниками информации. Инструментарий доступен для публичного использования и включает в себя сценарии атак на различные типы агентных хранилищ.