Hacker News · 15.06.2026 ·Безопасность и алайнмент

Каталог атак через инъекции в промпты

Исследователи из Archestra.ai представили подробный каталог атак через инъекции в промпты. В нём описаны 10 основных типов атак, которые могут быть использованы для манипуляции поведением ИИ-агентов. Это важно, потому что инъекции в промпты — один из самых распространённых способов взлома ИИ-систем, и понимание этих атак помогает разрабатывать более защищённые системы.

Каталог включает атаки, такие как обход фильтров безопасности, подмена контекста и манипуляция с памятью. Например, атака типа «переопределение» позволяет злоумышленнику заставить ИИ игнорировать предыдущие инструкции и выполнять команды, которые могут быть вредоносными. Это особенно опасно для агентов, работающих с конфиденциальными данными или выполняющих критические задачи.

Авторы каталога также предлагают методы защиты от этих атак, включая использование более сложных механизмов проверки промптов и ограничение возможностей ИИ-агентов. Эти методы могут быть полезны для разработчиков, создающих ИИ-агентов, таких как Jarv, чтобы обеспечить их безопасность и надёжность.

Понимание и защита от инъекций в промпты — это ключевой аспект разработки ИИ-агентов. Каталог Archestra.ai предоставляет ценные инсайты и инструменты для улучшения безопасности ИИ-систем, что делает его важным ресурсом для всех, кто работает в этой области.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Разработка и инструменты Безопасность ИИ-агентов: защита от инъекций и манипуляций Статья детально разбирает архитектурные подходы к защите ИИ-агентов от атак типа prompt injection и несанкционированного выполнения кода. Автор анализирует уязвимости в цепочках вызовов инструментов и предлагает методы изоляции контекста, которые позволяют минимизировать риски при взаимодействии модели с внешними API и системными функциями в процессе автономной работы. Hacker News · Безопасность и алайнмент Уязвимости ИИ-агентов к атакам через внедрение данных Исследователи представили анализ нового вектора угроз для автономных ИИ-систем — атак через внедрение данных (Data Injection Attacks). В отличие от классических атак на промпты, этот метод эксплуатирует доверие агентов к внешним источникам информации, таким как веб-страницы, базы данных или API, позволяя злоумышленникам скрыто манипулировать поведением агента и его решениями. Hacker News · Память и RAG Практическое руководство по защите памяти ИИ-агентов от атак Разработчики ИИ-систем сталкиваются с новыми векторами угроз, направленными на долгосрочную память агентов. В статье представлен обзор методов защиты RAG-архитектур от инъекций данных, манипуляций с контекстом и отравления векторных баз. Авторы описывают конкретные стратегии фильтрации входящих данных и проверки целостности памяти, позволяющие минимизировать риски несанкционированного управления поведением агента через скомпрометированные знания. Hacker News · Безопасность и алайнмент Новый метод защиты специализированных ИИ-агентов от атак через промпт-инъекции Исследователи представили новый подход к обнаружению промпт-инъекций, направленных на специализированные ИИ-агенты. Метод фокусируется на выявлении вредоносных инструкций, которые пытаются обойти системные ограничения модели. Авторы разработали систему классификации атак, позволяющую эффективно фильтровать попытки манипуляции поведением агента в реальном времени, что критически важно для безопасности корпоративных систем, использующих LLM в качестве исполнителей задач. Hacker News · Безопасность и алайнмент Зафиксированы первые случаи атак через косвенные промпт-инъекции в реальных ИИ-агентах Исследователи Unit 42 зафиксировали реальные случаи использования косвенных промпт-инъекций (indirect prompt injection) против ИИ-агентов. Злоумышленники внедряют скрытые инструкции в веб-контент, который затем считывается агентами, заставляя их выполнять несанкционированные действия. Это подтверждает переход теоретических уязвимостей в плоскость практических угроз для автоматизированных систем, использующих LLM для обработки внешних данных. Hacker News · Безопасность и алайнмент Обзор методов защиты от промпт-инъекций в ИИ-агентах Исследование Fabraix анализирует текущее состояние защиты LLM-агентов от промпт-инъекций, констатируя отсутствие универсального решения. Авторы систематизируют подходы к минимизации рисков, разделяя их на фильтрацию входных данных, изоляцию контекста и мониторинг выполнения. Несмотря на разнообразие методов, большинство из них остаются уязвимыми перед сложными атаками, что требует многоуровневой стратегии безопасности при внедрении агентных систем в реальные бизнес-процессы. Hacker News · Безопасность и алайнмент Уязвимости в защитных ИИ-агентах: риск удаленного выполнения кода Исследователи AI Now Institute выявили критические уязвимости в архитектуре защитных ИИ-агентов, используемых для кибербезопасности. Эксперты продемонстрировали, как злоумышленники могут манипулировать входными данными агента, чтобы добиться удаленного выполнения кода (RCE) в инфраструктуре организации. Это ставит под угрозу концепцию автономных систем защиты, превращая их в потенциальный вектор атаки на корпоративные сети. Hacker News · Безопасность и алайнмент Вышел бесплатный справочник по безопасности агентных ИИ-систем NextKick Labs представили «Agentic AI Security Reference» — открытое руководство по защите агентных систем от специфических угроз. Материал систематизирует векторы атак на LLM-агентов, включая манипуляции с инструментами, инъекции промптов и уязвимости в цепочках принятия решений, предоставляя архитектурные рекомендации для разработчиков, внедряющих автономные системы в бизнес-процессы. Hacker News · Безопасность и алайнмент Уязвимости в ChatGPT: риск внедрения вредоносных ИИ-агентов через ссылки Исследователи безопасности выявили критический вектор атаки, позволяющий злоумышленникам внедрять вредоносных ИИ-агентов в корпоративные среды через специально сформированные ссылки ChatGPT. Используя уязвимости в механизмах обработки внешних данных и интеграций, атакующие могут обходить политики безопасности, вынуждая корпоративные системы выполнять несанкционированные действия или передавать конфиденциальные данные сторонним сервисам без ведома пользователей. Hacker News · Безопасность и алайнмент Уязвимость RAG-систем к непрямым промпт-инъекциям Исследователи продемонстрировали практический сценарий непрямой промпт-инъекции в RAG-конвейерах. Атака заключается в размещении вредоносного контента на внешних ресурсах, которые индексируются системой. В результате ИИ-агент, извлекая данные из скомпрометированного источника, перехватывает управление и выполняет несанкционированные действия, игнорируя системные инструкции и подвергая риску целостность бизнес-процессов, автоматизированных с помощью LLM.

← Все материалы