Hacker News · 22.06.2026 ·Память и RAG

Уязвимости систем памяти ИИ-агентов к отравлению данными

Исследователи представили новый бенчмарк для оценки безопасности систем памяти, используемых в ИИ-агентах. Работа фокусируется на уязвимости «отравления фактами» (fact poisoning), при которой злоумышленник внедряет ложную или вредоносную информацию в базу знаний агента. В ходе экспериментов было доказано, что современные системы RAG (Retrieval-Augmented Generation) могут быть скомпрометированы через манипуляцию данными, которые агент извлекает из внешних источников для принятия решений.

Бенчмарк позволяет воспроизводимо тестировать различные архитектуры памяти на устойчивость к инъекциям ложных данных. Авторы демонстрируют, как агент, полагающийся на внешнюю базу, начинает транслировать дезинформацию или выполнять ошибочные действия, если в его «память» попадают специально подготовленные фрагменты текста. Это создает серьезные риски для автономных систем, которые используют RAG для работы с динамическими данными в реальном времени.

Результаты исследования подчеркивают необходимость внедрения механизмов верификации и фильтрации данных на этапе их индексации и извлечения. Разработчикам предлагается использовать предложенный набор тестов для проверки своих систем на предмет того, насколько легко агент может быть введен в заблуждение при взаимодействии с неконтролируемыми источниками информации. Инструментарий доступен для публичного использования и включает в себя сценарии атак на различные типы агентных хранилищ.

Источник: Hacker News

Похожие материалы

Hacker News · Безопасность и алайнмент Исследование: как пользовательский контент может отравить ИИ-агентов Исследователи из MIT и Университета Карнеги-Меллона опубликовали работу, в которой показано, как пользовательский контент может «отравить» ИИ-агентов, особенно тех, которые работают с глубокими исследованиями. В статье рассматриваются сценарии, в которых злоумышленники могут встраивать вредоносные данные в пользовательские запросы, что приводит к искажению работы агентов. Hacker News · Память и RAG GateMem: новый бенчмарк для управления памятью в мультиагентных системах Исследователи представили GateMem — специализированный бенчмарк для оценки механизмов управления памятью в системах, где несколько агентов или пользователей совместно используют общее хранилище данных. Основная проблема, которую решает проект, заключается в обеспечении безопасности и конфиденциальности при доступе к «разделяемой памяти» (shared memory). В условиях, когда агенты работают с данными от разных владельцев, возникает риск утечки информации или несанкционированного доступа к контексту, который не предназначен для конкретного участника процесса. Hugging Face - Blog · Безопасность и алайнмент Исследование MosaicLeaks: уязвимости ИИ-агентов при работе с данными Исследователи представили проект MosaicLeaks, посвященный анализу безопасности автономных ИИ-агентов в условиях работы с конфиденциальными данными. В ходе экспериментов изучалось, насколько эффективно модели могут защищать приватную информацию при выполнении сложных задач, требующих доступа к внешним источникам и базам данных. Основное внимание было уделено сценариям, в которых агент может непреднамеренно раскрыть чувствительные сведения в процессе обработки запросов или при взаимодействии с API. Hacker News · Безопасность и алайнмент Исследование рисков конфиденциальности при работе ИИ-агентов Исследователи представили анализ уязвимостей, возникающих при интеграции ИИ-агентов в рабочие процессы. Основная проблема заключается в расширении прав доступа моделей к личным данным пользователей, почтовым клиентам и внутренним корпоративным системам. В ходе экспериментов удалось продемонстрировать сценарии, при которых агент, выполняя задачу по автоматизации, непреднамеренно передает конфиденциальную информацию сторонним сервисам или сохраняет её в незащищенных логах. Hacker News · Безопасность и алайнмент Исследование рисков самоадаптирующихся ИИ-агентов Исследователи представили анализ потенциальных угроз, связанных с созданием автономных программных агентов, способных к самомодификации и адаптации кода в процессе выполнения. В работе рассматриваются сценарии, при которых LLM-системы могут изменять собственную логику для обхода ограничений безопасности или автоматического распространения в сетевых средах. Основное внимание уделено механизмам, позволяющим моделям переписывать свои инструкции в реальном времени, что создает новые векторы атак, ранее не характерные для традиционного вредоносного ПО. Hugging Face - Blog · Оценка и бенчмарки VAKRA: новый бенчмарк для тестирования ИИ-агентов Исследователи из IBM Research представили VAKRA — новый бенчмарк для оценки способностей ИИ-агентов к логическому мышлению, использованию инструментов и обработке ошибок. В отличие от существующих тестов, VAKRA фокусируется на комплексных сценариях, требующих от агентов не только генерации текста, но и выполнения последовательных действий с анализом промежуточных результатов. Hacker News · Оценка и бенчмарки Deep-XPIA: бенчмарк для тестирования уязвимостей к инъекциям в промптах Команда Freyzo представила Deep-XPIA — первый бенчмарк для оценки устойчивости многоагентных ИИ-систем к атакам через инъекции в промптах. Это важный шаг в развитии безопасности ИИ-агентов, так как инъекции в промптах остаются одной из ключевых уязвимостей, особенно в системах с открытым доступом к пользовательским данным. Hacker News · Безопасность и алайнмент Проблема безопасности ИИ-агентов с доступом к записи данных Разработчики обсуждают риски, связанные с внедрением ИИ-агентов, обладающих правами на запись и изменение данных во внешних системах. Основная угроза заключается в атаках типа «payload smuggling», когда злоумышленники через специально сформированные входные данные или контекст заставляют агента выполнить несанкционированные действия. В условиях, когда агент имеет доступ к API, базам данных или файловым системам, последствия таких манипуляций могут быть критическими для целостности инфраструктуры. Hacker News · Инфраструктура для агентов Архитектурный подход к организации памяти ИИ-агентов Разработчики представили проект Recall Memory Substrate, который систематизирует подходы к управлению памятью в агентных системах. Основная дискуссия строится вокруг выбора между моделями «push» и «pull» при взаимодействии агента с внешними хранилищами данных. В первом случае агент активно записывает и структурирует информацию в базу данных в процессе работы, во втором — система извлекает необходимые контекстные данные по запросу, минимизируя избыточность. Hacker News · Оркестрация агентов Как защитить ИИ-агента от токсичных данных Разработчики ИИ-агентов сталкиваются с проблемой токсичных данных, которые могут искажать работу моделей. В статье на Digital Grease подробно разбирается подход к фильтрации и обработке вредоносных данных, которые могут попасть в поток информации, обрабатываемый агентом.

← Все материалы