arXiv · 23.06.2026 ·Безопасность и алайнмент

Исследование безопасности популярных ИИ-агентов

Исследователи представили первый комплексный анализ безопасности широко используемых агентных систем, предназначенных для наступательных операций. Работа демонстрирует, что по мере роста автономности агентов их уязвимость к атакам становится критическим фактором. Авторы оценивают риски эксплуатации инфраструктуры агентов и предлагают методологию для выявления векторов атак, которые могут привести к компрометации систем управления и утечке данных.

Развитие агентных систем перевело использование ИИ в кибербезопасности из теоретической плоскости в прикладную. Однако фокус разработчиков на расширении функциональных возможностей часто идет в ущерб защищенности. В исследовании рассматриваются сценарии, при которых агенты могут быть обмануты или перехвачены злоумышленниками, что ставит под угрозу не только целевые системы, но и саму инфраструктуру, в которой функционирует агент.

Авторы подчеркивают необходимость внедрения специализированного «красного тестирования» (red-teaming) для агентных архитектур. В отличие от традиционных LLM, агенты обладают доступом к инструментам и внешним средам, что создает дополнительные поверхности для атак, такие как манипуляция вызовами функций или внедрение вредоносных инструкций через внешние API. Работа задает стандарт для оценки устойчивости агентных систем к современным угрозам.

Ключевые факты

Исследование сфокусировано на анализе безопасности наиболее распространенных агентных фреймворков, используемых в наступательных операциях.
Выявлено, что текущие методы оценки безопасности не учитывают специфику агентной автономности и взаимодействия с внешними инструментами.
Предложена новая методология тестирования, направленная на обнаружение уязвимостей в цепочках вызовов инструментов и управлении памятью агентов.
Работа подчеркивает переход от теоретических рисков к реальной угрозе эксплуатации агентных систем в кибербезопасности.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Безопасность и алайнмент Исследование рисков самоадаптирующихся ИИ-агентов Исследователи представили анализ потенциальных угроз, связанных с созданием автономных программных агентов, способных к самомодификации и адаптации кода в процессе выполнения. В работе рассматриваются сценарии, при которых LLM-системы могут изменять собственную логику для обхода ограничений безопасности или автоматического распространения в сетевых средах. Основное внимание уделено механизмам, позволяющим моделям переписывать свои инструкции в реальном времени, что создает новые векторы атак, ранее не характерные для традиционного вредоносного ПО. Hacker News · Безопасность и алайнмент Исследование рисков конфиденциальности при работе ИИ-агентов Исследователи представили анализ уязвимостей, возникающих при интеграции ИИ-агентов в рабочие процессы. Основная проблема заключается в расширении прав доступа моделей к личным данным пользователей, почтовым клиентам и внутренним корпоративным системам. В ходе экспериментов удалось продемонстрировать сценарии, при которых агент, выполняя задачу по автоматизации, непреднамеренно передает конфиденциальную информацию сторонним сервисам или сохраняет её в незащищенных логах. Hugging Face - Blog · Безопасность и алайнмент Исследование MosaicLeaks: уязвимости ИИ-агентов при работе с данными Исследователи представили проект MosaicLeaks, посвященный анализу безопасности автономных ИИ-агентов в условиях работы с конфиденциальными данными. В ходе экспериментов изучалось, насколько эффективно модели могут защищать приватную информацию при выполнении сложных задач, требующих доступа к внешним источникам и базам данных. Основное внимание было уделено сценариям, в которых агент может непреднамеренно раскрыть чувствительные сведения в процессе обработки запросов или при взаимодействии с API. arXiv · Безопасность и алайнмент Анализ защитных методов против автоматизированных атак на ИИ-агентов Исследователи представили анализ эффективности защитных стратегий против автоматизированных атак на агентные системы. Современные ИИ-агенты активно используют языковые модели для интерпретации инструкций, обработки внешних данных и взаимодействия с инструментами. Это расширяет поверхность атаки, позволяя злоумышленникам применять автоматизированные методы для масштабирования промпт-инъекций и подбора обходов ограничений безопасности. Hacker News · Оценка и бенчмарки Методология тестирования ИИ-агентов на устойчивость к сбоям Разбор основных векторов атак и ошибок, приводящих к сбоям в работе автономных ИИ-агентов. Автор анализирует уязвимости в логике планирования, управлении контекстом и обработке внешних инструментов. Материал предлагает системный подход к стресс-тестированию агентных систем, позволяющий выявлять критические точки отказа до их появления в продакшене и повышать общую надежность автоматизированных процессов. Hacker News · Безопасность и алайнмент Безопасность ИИ-агентов: когда запрос на подтверждение становится уязвимостью Исследование анализирует, в каких случаях механизмы подтверждения действий ИИ-агентом (human-in-the-loop) перестают быть надежным барьером безопасности. Автор показывает, что при неправильной реализации такие промпты могут быть скомпрометированы через манипуляцию контекстом, что позволяет агенту обходить ограничения и выполнять несанкционированные действия, имитируя легитимное одобрение пользователя или скрывая истинный характер операции. Hacker News · Безопасность и алайнмент Проблема безопасности ИИ-агентов с доступом к записи данных Разработчики обсуждают риски, связанные с внедрением ИИ-агентов, обладающих правами на запись и изменение данных во внешних системах. Основная угроза заключается в атаках типа «payload smuggling», когда злоумышленники через специально сформированные входные данные или контекст заставляют агента выполнить несанкционированные действия. В условиях, когда агент имеет доступ к API, базам данных или файловым системам, последствия таких манипуляций могут быть критическими для целостности инфраструктуры. Hacker News · Безопасность и алайнмент Безопасность ИИ-агентов зависит от чистоты входящих данных Новое исследование подчеркивает критическую проблему в безопасности автономных ИИ-систем: аудит самих моделей оказывается недостаточным, если не контролируются источники данных, на которых они обучаются или из которых получают контекст в реальном времени. Авторы работы доказывают, что злоумышленники могут использовать уязвимости в цепочке поставок данных, чтобы внедрять скрытые инструкции или искажать поведение агентов еще до того, как информация попадет в их рабочую память. Hacker News · Безопасность и алайнмент Исследование: как пользовательский контент может отравить ИИ-агентов Исследователи из MIT и Университета Карнеги-Меллона опубликовали работу, в которой показано, как пользовательский контент может «отравить» ИИ-агентов, особенно тех, которые работают с глубокими исследованиями. В статье рассматриваются сценарии, в которых злоумышленники могут встраивать вредоносные данные в пользовательские запросы, что приводит к искажению работы агентов. Hacker News · Безопасность и алайнмент ИИ-агенты как новые субъекты корпоративной безопасности Современные организации сталкиваются с необходимостью пересмотра подходов к управлению доступом, так как ИИ-агенты начинают выполнять функции полноценных цифровых сотрудников. В отличие от традиционных учетных записей пользователей, агенты обладают способностью автономно взаимодействовать с корпоративными системами, базами данных и API. Отсутствие строгой идентификации и контроля за действиями таких систем создает серьезные риски для безопасности, включая несанкционированный доступ к конфиденциальной информации и возможность эксплуатации уязвимостей в цепочке поставок ПО.

← Все материалы