Исследователь Фернандо Ираррасаваль провел публичный эксперимент, предложив 2000 участникам попытаться извлечь секретные данные из ИИ-ассистента OpenClaw через email-инъекции. Несмотря на 6000 попыток взлома, ни одному пользователю не удалось получить доступ к скрытой информации. Эксперимент продемонстрировал устойчивость системы к промпт-инъекциям в реальных условиях эксплуатации, несмотря на значительные затраты ресурсов и технические ограничения.
В ходе испытаний организаторы столкнулись с непредвиденными трудностями: интенсивный поток входящих писем привел к блокировке аккаунта Google, а стоимость токенов для обработки запросов достигла 500 долларов. Использование email-канала в качестве вектора атаки позволило протестировать модель в условиях, максимально приближенных к реальным сценариям взаимодействия с пользователями, где злоумышленники активно ищут способы обхода системных инструкций.
Результаты подчеркивают важность многоуровневой защиты при развертывании агентных систем. Хотя модель успешно отразила атаки, опыт показал, что инфраструктурные риски — такие как стоимость инференса и зависимость от сторонних почтовых сервисов — остаются критическими факторами при создании публично доступных ИИ-инструментов.
Ключевые факты
- В эксперименте приняли участие 2000 человек, совершивших в общей сложности 6000 попыток взлома.
- Итоговая стоимость токенов, затраченных на обработку всех запросов, составила 500 долларов.
- Аккаунт Google, использовавшийся для приема входящих писем, был временно заблокирован из-за аномально высокой активности.
- Целью атаки было извлечение секретных данных, хранящихся в тестовом экземпляре OpenClaw.
- Ни одна из предпринятых попыток не привела к успешной утечке целевой информации.