Исследователь Фернандо Ираррасаваль провел публичный эксперимент, предложив 2000 участникам попытаться извлечь секретные данные из ИИ-ассистента OpenClaw через email-инъекции. Несмотря на 6000 попыток взлома, ни одному пользователю не удалось получить доступ к скрытой информации. Эксперимент продемонстрировал устойчивость системы к промпт-инъекциям в реальных условиях эксплуатации, несмотря на значительные затраты ресурсов и технические ограничения.

В ходе испытаний организаторы столкнулись с непредвиденными трудностями: интенсивный поток входящих писем привел к блокировке аккаунта Google, а стоимость токенов для обработки запросов достигла 500 долларов. Использование email-канала в качестве вектора атаки позволило протестировать модель в условиях, максимально приближенных к реальным сценариям взаимодействия с пользователями, где злоумышленники активно ищут способы обхода системных инструкций.

Результаты подчеркивают важность многоуровневой защиты при развертывании агентных систем. Хотя модель успешно отразила атаки, опыт показал, что инфраструктурные риски — такие как стоимость инференса и зависимость от сторонних почтовых сервисов — остаются критическими факторами при создании публично доступных ИИ-инструментов.

Ключевые факты

  • В эксперименте приняли участие 2000 человек, совершивших в общей сложности 6000 попыток взлома.
  • Итоговая стоимость токенов, затраченных на обработку всех запросов, составила 500 долларов.
  • Аккаунт Google, использовавшийся для приема входящих писем, был временно заблокирован из-за аномально высокой активности.
  • Целью атаки было извлечение секретных данных, хранящихся в тестовом экземпляре OpenClaw.
  • Ни одна из предпринятых попыток не привела к успешной утечке целевой информации.