Исследователи представили проект MosaicLeaks, посвященный анализу безопасности автономных ИИ-агентов в условиях работы с конфиденциальными данными. В ходе экспериментов изучалось, насколько эффективно модели могут защищать приватную информацию при выполнении сложных задач, требующих доступа к внешним источникам и базам данных. Основное внимание было уделено сценариям, в которых агент может непреднамеренно раскрыть чувствительные сведения в процессе обработки запросов или при взаимодействии с API.
Авторы работы разработали методологию оценки утечек, имитирующую реальные рабочие процессы, в которых ИИ-системы выступают в роли помощников исследователей. Результаты показали, что даже при наличии базовых механизмов защиты, агенты остаются уязвимыми к специфическим типам атак, направленным на извлечение скрытых данных из контекстного окна или через манипуляцию параметрами поиска. Проблема усугубляется тем, что современные архитектуры агентов часто полагаются на динамическое извлечение информации, что создает дополнительные векторы для несанкционированного доступа.
Данное исследование подчеркивает необходимость внедрения более строгих протоколов безопасности на этапе проектирования агентных систем. Специалисты отмечают, что текущие методы фильтрации контента и контроля доступа часто оказываются недостаточными для предотвращения утечек в сложных многошаговых цепочках рассуждений. Полученные данные позволяют разработчикам лучше понять границы безопасности при интеграции ИИ в корпоративные среды, где защита интеллектуальной собственности и персональных данных является приоритетной задачей.
