Hacker News · 16.06.2026 ·Оценка и бенчмарки

Deep-XPIA: бенчмарк для тестирования уязвимостей к инъекциям в промптах

Команда Freyzo представила Deep-XPIA — первый бенчмарк для оценки устойчивости многоагентных ИИ-систем к атакам через инъекции в промптах. Это важный шаг в развитии безопасности ИИ-агентов, так как инъекции в промптах остаются одной из ключевых уязвимостей, особенно в системах с открытым доступом к пользовательским данным.

Deep-XPIA включает более 1000 тестовых сценариев, охватывающих различные типы инъекций, от простых до сложных. Бенчмарк позволяет оценить, насколько хорошо агент может сопротивляться попыткам манипулирования его поведением через злонамеренные промпты. Это особенно актуально для систем, работающих с конфиденциальной информацией или выполняющих критические задачи.

Для разработчиков ИИ-агентов, включая команду Jarv, Deep-XPIA может стать полезным инструментом для тестирования и улучшения безопасности. Бенчмарк открыт для доступа и может быть использован для оценки как собственных систем, так и сторонних решений. Это важный шаг в направлении создания более надежных и безопасных ИИ-агентов, способных противостоять современным киберугрозам.

Deep-XPIA доступен на GitHub и включает подробную документацию, что облегчает его интеграцию в процессы разработки и тестирования. Это еще один пример того, как сообщество ИИ активно работает над улучшением безопасности и надежности агентов, что критически важно для их успешного внедрения в реальные сценарии использования.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Оценка и бенчмарки Создание бенчмарка уязвимостей для ИИ-агентов на Python Разработчики формируют набор CVE-уязвимостей для тестирования безопасности ИИ-агентов, работающих на Python. Проект направлен на создание стандартизированного бенчмарка, который позволит оценивать устойчивость агентных систем к эксплуатации известных критических уязвимостей в коде и библиотеках. Это важный шаг для обеспечения безопасности автономных систем, взаимодействующих с внешними средами и исполняющих произвольный код. Hacker News · Оценка и бенчмарки DeepSWE: новый стандарт для оценки ИИ-агентов в разработке ПО Исследователи представили DeepSWE — специализированный бенчмарк для оценки способностей ИИ-агентов в решении реальных задач программирования. В отличие от предыдущих тестов, ориентированных на написание отдельных функций, DeepSWE фокусируется на комплексных изменениях в кодовой базе, требующих навигации по репозиториям, понимания контекста проекта и выполнения многоэтапных правок, что лучше отражает реальную работу инженеров. Hacker News · Оценка и бенчмарки DeepSWE: новый стандарт для оценки ИИ-агентов в разработке ПО DeepSWE представляет собой специализированный бенчмарк, разработанный для объективной оценки способностей ИИ-агентов в решении комплексных задач программной инженерии. В отличие от простых тестов на написание кода, этот инструмент фокусируется на реальных сценариях разработки, требующих понимания архитектуры, работы с существующими кодовыми базами и выполнения многоэтапных инженерных операций в условиях спецификаций. Hacker News · Память и RAG Уязвимости систем памяти ИИ-агентов к отравлению данными Исследователи представили новый бенчмарк для оценки безопасности систем памяти, используемых в ИИ-агентах. Работа фокусируется на уязвимости «отравления фактами» (fact poisoning), при которой злоумышленник внедряет ложную или вредоносную информацию в базу знаний агента. В ходе экспериментов было доказано, что современные системы RAG (Retrieval-Augmented Generation) могут быть скомпрометированы через манипуляцию данными, которые агент извлекает из внешних источников для принятия решений. Hacker News · Оценка и бенчмарки Burpwn: инструмент для тестирования безопасности ИИ-агентов Разработчики из сообщества Own2pwn представили Burpwn — инструмент для тестирования безопасности ИИ-агентов, вдохновленный популярным Burp Suite. Burpwn позволяет анализировать взаимодействие агентов с внешними системами, выявляя уязвимости и потенциальные точки входа для атак. arXiv · Безопасность и алайнмент PiSAs: новый бенчмарк для оценки утечек данных в многопользовательских ИИ-системах Исследователи представили PiSAs — первый бенчмарк для оценки целостности контекста в многопользовательских агентных системах. Инструмент выявляет риски утечки конфиденциальной информации между пользователями, возникающие при использовании общей памяти и обмене сообщениями между агентами. Это критически важно для корпоративных сред, где существующие методы оценки безопасности не учитывают специфику взаимодействия нескольких агентов внутри одной инфраструктуры. arXiv · Безопасность и алайнмент MemSecBench: новый бенчмарк для анализа отравления памяти ИИ-агентов Исследователи представили MemSecBench — первый комплексный бенчмарк для оценки уязвимостей долгосрочной памяти ИИ-агентов. Инструмент отслеживает жизненный цикл вредоносных инструкций: от момента их записи в базу данных до активации в ходе выполнения задач. Работа демонстрирует, как злоумышленники могут внедрять скрытые команды, которые долгое время остаются неактивными, а затем влияют на критические решения агента. arXiv · Безопасность и алайнмент Автоматизированный ред-тиминг для ИИ-агентов в продакшене Исследователи представили метод автоматизированного ред-тиминга для оценки безопасности ИИ-агентов, работающих с внешними файлами и командами. Система использует подход «агент против агента», где атакующий ИИ ищет уязвимости в целевой модели, анализируя рабочее пространство и контекст выполнения. Это позволяет выявлять критические сбои в безопасности, которые возникают при взаимодействии моделей с недоверенным контентом в реальных рабочих средах. Hacker News · ИИ в бизнесе Создание эффективных ИИ-агентов для тестирования на проникновение Разработка специализированных ИИ-агентов для пентестинга требует перехода от простых цепочек промптов к сложным архитектурам с глубоким контекстом. Современный подход фокусируется на интеграции агентов с инструментами сканирования уязвимостей, автоматизации этапов разведки и приоритизации векторов атак, что позволяет значительно сократить время на обнаружение критических брешей в безопасности корпоративных систем и инфраструктуры. Hacker News · Безопасность и алайнмент Declaw Arena: платформа для тестирования безопасности ИИ-агентов в изолированной среде Declaw Arena — это новая платформа для проведения соревнований в формате CTF (Capture The Flag), направленная на поиск уязвимостей в ИИ-агентах. Участникам предлагается взломать систему, работающую в изолированной микровиртуальной машине (microVM), чтобы проверить устойчивость агентов к атакам типа «инъекция промптов» и попыткам несанкционированного доступа к системным ресурсам.

← Все материалы