Разработчики ИИ-систем сталкиваются с новыми векторами угроз, направленными на долгосрочную память агентов. В статье представлен обзор методов защиты RAG-архитектур от инъекций данных, манипуляций с контекстом и отравления векторных баз. Авторы описывают конкретные стратегии фильтрации входящих данных и проверки целостности памяти, позволяющие минимизировать риски несанкционированного управления поведением агента через скомпрометированные знания.
Основная проблема заключается в том, что агенты с доступом к внешним базам данных становятся уязвимыми для «атак через память». Злоумышленники могут внедрять вредоносные инструкции в документы, которые затем индексируются и извлекаются в процессе работы модели. Это позволяет обходить системные промпты и заставлять агента выполнять действия, не предусмотренные разработчиком, или раскрывать конфиденциальную информацию из истории взаимодействия.
Для обеспечения безопасности предлагается многоуровневый подход. Он включает в себя строгую валидацию источников данных, использование механизмов изоляции контекста и внедрение систем мониторинга аномалий в векторных хранилищах. Важным элементом защиты является также регулярный аудит извлекаемых фрагментов (chunks) на предмет наличия командных инструкций, которые могут быть ошибочно интерпретированы LLM как руководство к действию.
Ключевые факты
- Основной вектор атаки — внедрение вредоносных инструкций в неструктурированные данные, которые попадают в RAG-пайплайн.
- Защита требует внедрения фильтров на этапе препроцессинга, проверяющих входящие данные на наличие паттернов «prompt injection».
- Рекомендуется использовать механизмы проверки целостности для векторных баз данных, чтобы исключить подмену или отравление индексов.
- Изоляция контекста памяти для разных сессий пользователя снижает риск кросс-агентских атак и утечек данных.
- Мониторинг аномалий в запросах к векторной базе позволяет выявлять попытки сканирования или извлечения всей базы знаний агента.