Declaw Arena — это новая платформа для проведения соревнований в формате CTF (Capture The Flag), направленная на поиск уязвимостей в ИИ-агентах. Участникам предлагается взломать систему, работающую в изолированной микровиртуальной машине (microVM), чтобы проверить устойчивость агентов к атакам типа «инъекция промптов» и попыткам несанкционированного доступа к системным ресурсам.

Проект фокусируется на безопасности агентных систем, которые получают доступ к инструментам и внешним API. В отличие от стандартных бенчмарков, здесь акцент сделан на реальных сценариях эксплуатации, где агент должен выполнять задачи в контролируемом, но враждебном окружении. Использование microVM позволяет безопасно эмулировать инфраструктуру, к которой агент может быть подключен в реальных бизнес-приложениях.

Такой подход помогает разработчикам выявлять критические бреши в логике оркестрации и настройках прав доступа до того, как система будет развернута в продакшене. Платформа предоставляет среду, максимально приближенную к реальным условиям работы автономных агентов, что делает её инструментом для стресс-тестирования безопасности архитектурных решений.

Ключевые факты

  • Платформа использует формат CTF для обучения и тестирования защиты ИИ-агентов.
  • Изоляция агентов реализована через технологию microVM для предотвращения выхода за пределы песочницы.
  • Основная цель — отработка навыков противодействия инъекциям промптов и несанкционированному выполнению кода.
  • Проект ориентирован на разработчиков, создающих автономные системы с доступом к внешним инструментам и данным.