Новое исследование подчеркивает критическую проблему в безопасности автономных ИИ-систем: аудит самих моделей оказывается недостаточным, если не контролируются источники данных, на которых они обучаются или из которых получают контекст в реальном времени. Авторы работы доказывают, что злоумышленники могут использовать уязвимости в цепочке поставок данных, чтобы внедрять скрытые инструкции или искажать поведение агентов еще до того, как информация попадет в их рабочую память.
Исследователи вводят понятие «аудита вышестоящих потоков» (upstream feed auditing). Суть метода заключается в проверке не только весов модели, но и всех внешних API, баз данных и веб-ресурсов, к которым агент обращается в процессе выполнения задач. Если источник данных скомпрометирован, агент может совершить нежелательные действия, даже если его внутренняя логика настроена корректно. Это делает традиционные методы «песочниц» и фильтрации ответов лишь частичным решением проблемы.
Авторы предлагают внедрить многоуровневую систему верификации данных, которая отслеживает происхождение информации и её целостность на каждом этапе передачи. Такой подход требует интеграции инструментов мониторинга непосредственно в пайплайны обработки данных, чтобы исключить возможность манипуляции контекстом. В условиях, когда агенты получают всё больше прав на выполнение действий в реальном мире, контроль над входящими потоками становится ключевым элементом защиты инфраструктуры.