Hacker News · 22.06.2026 ·Безопасность и алайнмент

Защита ИИ-агентов от атак через непрямые промпт-инъекции

Разработчики платформы Tabstack представили комплексный подход к защите ИИ-агентов от непрямых промпт-инъекций. Этот тип уязвимостей возникает, когда агент считывает внешний контент — например, содержимое веб-страниц или документов, — содержащий скрытые инструкции, которые пытаются перехватить управление или изменить логику работы системы. Проблема становится критической для автономных агентов, которые активно взаимодействуют с неконтролируемыми данными из интернета.

Техническое решение базируется на строгом разделении контекста, который агент получает из доверенных источников, и данных, поступающих извне. Система использует многоуровневую фильтрацию, при которой внешний контент проходит предварительную обработку и очистку перед тем, как попасть в промпт модели. Это позволяет исключить выполнение вредоносных команд, внедренных в метаданные или скрытый текст страниц, которые могут быть интерпретированы моделью как системные указания.

Помимо фильтрации, внедряется механизм верификации действий агента, который требует подтверждения операций, затрагивающих критические функции или доступ к данным пользователя. Такой подход минимизирует риск выполнения несанкционированных действий даже в случае успешного обхода первичных фильтров. Разработчики подчеркивают, что безопасность агентных систем требует перехода от доверия к входным данным к модели «нулевого доверия», где любой внешний контент рассматривается как потенциально опасный вектор атаки.

Источник: Hacker News

Похожие материалы

Hacker News · Безопасность и алайнмент Проблема безопасности ИИ-агентов с доступом к записи данных Разработчики обсуждают риски, связанные с внедрением ИИ-агентов, обладающих правами на запись и изменение данных во внешних системах. Основная угроза заключается в атаках типа «payload smuggling», когда злоумышленники через специально сформированные входные данные или контекст заставляют агента выполнить несанкционированные действия. В условиях, когда агент имеет доступ к API, базам данных или файловым системам, последствия таких манипуляций могут быть критическими для целостности инфраструктуры. Hacker News · Безопасность и алайнмент Обеспечение безопасности данных при работе с ИИ-агентами через изоляцию Разработчики все чаще сталкиваются с рисками утечки конфиденциальных данных при интеграции ИИ-агентов в рабочие процессы. Основная угроза заключается в возможности несанкционированного доступа моделей к локальным секретам, ключам API и приватным репозиториям в процессе выполнения кода или установки зависимостей через пакетные менеджеры вроде NPM. Для минимизации этих рисков предлагается концепция «воздушного зазора» (airgap) для сред исполнения агентов. Hacker News · Безопасность и алайнмент Исследование рисков конфиденциальности при работе ИИ-агентов Исследователи представили анализ уязвимостей, возникающих при интеграции ИИ-агентов в рабочие процессы. Основная проблема заключается в расширении прав доступа моделей к личным данным пользователей, почтовым клиентам и внутренним корпоративным системам. В ходе экспериментов удалось продемонстрировать сценарии, при которых агент, выполняя задачу по автоматизации, непреднамеренно передает конфиденциальную информацию сторонним сервисам или сохраняет её в незащищенных логах. Hugging Face - Blog · Безопасность и алайнмент Исследование MosaicLeaks: уязвимости ИИ-агентов при работе с данными Исследователи представили проект MosaicLeaks, посвященный анализу безопасности автономных ИИ-агентов в условиях работы с конфиденциальными данными. В ходе экспериментов изучалось, насколько эффективно модели могут защищать приватную информацию при выполнении сложных задач, требующих доступа к внешним источникам и базам данных. Основное внимание было уделено сценариям, в которых агент может непреднамеренно раскрыть чувствительные сведения в процессе обработки запросов или при взаимодействии с API. Hacker News · Инфраструктура для агентов Безопасное управление API-ключами для ИИ-агентов Разработчики представили решение для безопасной передачи секретов и API-ключей в изолированные среды исполнения ИИ-агентов. Основная проблема существующих систем заключается в том, что при передаче ключей через переменные окружения или конфигурационные файлы агент получает к ним прямой доступ. Это создает риски утечки данных, если модель скомпрометирована или выполняет несанкционированный код. arXiv · Безопасность и алайнмент Анализ защитных методов против автоматизированных атак на ИИ-агентов Исследователи представили анализ эффективности защитных стратегий против автоматизированных атак на агентные системы. Современные ИИ-агенты активно используют языковые модели для интерпретации инструкций, обработки внешних данных и взаимодействия с инструментами. Это расширяет поверхность атаки, позволяя злоумышленникам применять автоматизированные методы для масштабирования промпт-инъекций и подбора обходов ограничений безопасности. Hacker News · Инфраструктура для агентов Реализация Human-in-the-Loop и механизмов безопасности в ИИ-агентах Создание автономных ИИ-агентов требует внедрения строгих механизмов контроля, особенно при выполнении действий, затрагивающих внешние системы. Ключевым подходом здесь становится архитектура Human-in-the-Loop (HITL), которая предполагает обязательное подтверждение оператором критических шагов перед их исполнением. Это позволяет минимизировать риски, связанные с галлюцинациями модели или неверной интерпретацией инструкций, обеспечивая прозрачность цепочки принятия решений. Hacker News · Инфраструктура для агентов Создание стимулов для взаимодействия внешних ИИ-агентов с платформой Разработчики агентных платформ начали внедрять механизмы, которые позволяют сторонним ИИ-агентам не просто использовать API, а активно участвовать в улучшении экосистемы сервиса. Основная идея заключается в создании среды, где автономные системы могут выполнять задачи по оптимизации, исправлению ошибок или обогащению данных платформы в обмен на доступ к ресурсам или специфическим функциям. Такой подход превращает внешние агенты из пассивных потребителей в активных участников процесса развития инфраструктуры. Hacker News · Безопасность и алайнмент Безопасность ИИ-агентов зависит от чистоты входящих данных Новое исследование подчеркивает критическую проблему в безопасности автономных ИИ-систем: аудит самих моделей оказывается недостаточным, если не контролируются источники данных, на которых они обучаются или из которых получают контекст в реальном времени. Авторы работы доказывают, что злоумышленники могут использовать уязвимости в цепочке поставок данных, чтобы внедрять скрытые инструкции или искажать поведение агентов еще до того, как информация попадет в их рабочую память. Hacker News · Безопасность и алайнмент Исследование: как пользовательский контент может отравить ИИ-агентов Исследователи из MIT и Университета Карнеги-Меллона опубликовали работу, в которой показано, как пользовательский контент может «отравить» ИИ-агентов, особенно тех, которые работают с глубокими исследованиями. В статье рассматриваются сценарии, в которых злоумышленники могут встраивать вредоносные данные в пользовательские запросы, что приводит к искажению работы агентов.

← Все материалы