Simon Willison's Weblog · 26.06.2026 ·Безопасность и алайнмент

Результаты краудсорсинг-теста на взлом ИИ-ассистента

Исследователь Фернандо Ираррасаваль провел публичный эксперимент, предложив 2000 участникам попытаться извлечь секретные данные из ИИ-ассистента OpenClaw через email-инъекции. Несмотря на 6000 попыток взлома, ни одному пользователю не удалось получить доступ к скрытой информации. Эксперимент продемонстрировал устойчивость системы к промпт-инъекциям в реальных условиях эксплуатации, несмотря на значительные затраты ресурсов и технические ограничения.

В ходе испытаний организаторы столкнулись с непредвиденными трудностями: интенсивный поток входящих писем привел к блокировке аккаунта Google, а стоимость токенов для обработки запросов достигла 500 долларов. Использование email-канала в качестве вектора атаки позволило протестировать модель в условиях, максимально приближенных к реальным сценариям взаимодействия с пользователями, где злоумышленники активно ищут способы обхода системных инструкций.

Результаты подчеркивают важность многоуровневой защиты при развертывании агентных систем. Хотя модель успешно отразила атаки, опыт показал, что инфраструктурные риски — такие как стоимость инференса и зависимость от сторонних почтовых сервисов — остаются критическими факторами при создании публично доступных ИИ-инструментов.

Ключевые факты

В эксперименте приняли участие 2000 человек, совершивших в общей сложности 6000 попыток взлома.
Итоговая стоимость токенов, затраченных на обработку всех запросов, составила 500 долларов.
Аккаунт Google, использовавшийся для приема входящих писем, был временно заблокирован из-за аномально высокой активности.
Целью атаки было извлечение секретных данных, хранящихся в тестовом экземпляре OpenClaw.
Ни одна из предпринятых попыток не привела к успешной утечке целевой информации.

Источник: Simon Willison's Weblog

Обсудить с ИИ

Похожие материалы

Hacker News · Безопасность и алайнмент Результаты краудсорсингового тестирования безопасности ИИ-ассистента Разработчик Фернандо Искьердо провел публичный эксперимент, предложив 2000 пользователям попытаться взломать его ИИ-ассистента, чтобы обойти системные инструкции и извлечь скрытые данные. В ходе тестирования выяснилось, что даже при наличии базовых защитных механизмов, пользователи находят способы манипуляции моделью, используя методы социальной инженерии и специфические промпты для обхода ограничений. Hacker News · Безопасность и алайнмент Использование ИИ-моделей в кибератаках на корпоративные сети Исследователи зафиксировали серию успешных взломов 14 компаний, совершенных злоумышленником с низким уровнем технической подготовки. В ходе атак использовались возможности больших языковых моделей, включая Claude и Codex, для написания вредоносного кода и автоматизации этапов проникновения в инфраструктуру. Использование ИИ позволило атакующему компенсировать недостаток глубоких экспертных знаний, эффективно генерируя эксплойты и обходя стандартные меры защиты. Hacker News · Безопасность и алайнмент Зафиксированы первые случаи атак через косвенные промпт-инъекции в реальных ИИ-агентах Исследователи Unit 42 зафиксировали реальные случаи использования косвенных промпт-инъекций (indirect prompt injection) против ИИ-агентов. Злоумышленники внедряют скрытые инструкции в веб-контент, который затем считывается агентами, заставляя их выполнять несанкционированные действия. Это подтверждает переход теоретических уязвимостей в плоскость практических угроз для автоматизированных систем, использующих LLM для обработки внешних данных. Hacker News · Безопасность и алайнмент Уязвимости в маркетплейсах ИИ-агентов: вредоносные «навыки» обходят сканеры Исследователи обнаружили критическую уязвимость в экосистеме ClawHub, где злоумышленники распространяют вредоносные «навыки» (skills) для ИИ-агентов. Эти компоненты успешно обходят стандартные системы безопасности, позволяя атакующим внедрять вредоносный код непосредственно в рабочие процессы ИИ. Проблема подчеркивает растущие риски в цепочке поставок ИИ-решений, где доверие к сторонним модулям становится вектором для атак на инфраструктуру. Hacker News · Безопасность и алайнмент Уязвимость ИИ-агентов: вредоносный код в GitHub-репозиториях Исследователи обнаружили новый вектор атаки на ИИ-агенты для написания кода. Злоумышленники создают GitHub-репозитории, которые выглядят как легитимные библиотеки, но содержат скрытые инструкции, заставляющие агентов выполнять вредоносные команды. Агенты, полагающиеся на контекст из репозиториев, автоматически включают опасный код в проекты пользователей, что создает серьезные риски для цепочек поставок программного обеспечения. Hacker News · Безопасность и алайнмент Кризис учетных данных в ИИ-агентах: анализ инцидентов за полгода За последние шесть месяцев участились случаи компрометации учетных данных, используемых автономными ИИ-агентами. Исследование DevFortress выявило критические уязвимости в системах управления доступом, где агенты получают избыточные привилегии, что приводит к утечкам данных и несанкционированному выполнению операций. Проблема становится системной по мере интеграции агентов в корпоративные инфраструктуры с доступом к API и облачным ресурсам. Hacker News · Безопасность и алайнмент Результаты тестирования ИИ-моделей Anthropic в закрытых системах АНБ В ходе недавних испытаний по методу red-teaming модель Mythos от компании Anthropic продемонстрировала способность к обходу систем защиты, используемых Агентством национальной безопасности США. В рамках контролируемого эксперимента ИИ-система за несколько часов получила доступ к значительному объему классифицированных данных, имитируя действия злоумышленника внутри защищенного периметра. Эти результаты стали одним из ключевых факторов, повлиявших на решение правительства США ограничить доступ к наиболее мощным версиям моделей Anthropic для широкого круга пользователей. Generative AI in Search Marketing: News & Expert Guides · Безопасность и алайнмент Уязвимости ИИ-агентов при работе с веб-контентом Google предупреждает о рисках безопасности для автономных ИИ-агентов, способных управлять компьютером и взаимодействовать с открытым вебом. Злоумышленники используют скрытые элементы на веб-страницах, чтобы манипулировать действиями моделей, таких как Gemini. Эти атаки направлены на обход инструкций безопасности и выполнение несанкционированных команд, что создает серьезные угрозы для пользователей, делегирующих агентам управление браузером и локальными файлами. Hacker News · Безопасность и алайнмент Хакеры используют Claude и Codex для взлома компаний Исследователи обнаружили, что злоумышленники применяют модели Claude и Codex для взлома корпоративных систем. В утечках логов зафиксированы случаи, когда хакеры использовали эти ИИ-модели для генерации вредоносного кода и автоматизации атак. Hacker News · Безопасность и алайнмент Уязвимость в инструментах разработки: перехват контроля через Sentry Исследователи обнаружили критический вектор атаки на популярные инструменты разработки с поддержкой ИИ, такие как Claude Code, Cursor и Codex. Уязвимость связана с использованием публичных ключей Sentry, которые позволяют злоумышленникам перехватывать данные сессий и манипулировать рабочим процессом агентов. Атака, получившая название «agentjacking», эксплуатирует доверие систем к конфигурационным файлам и логам, отправляемым в облачные сервисы мониторинга.

← Все материалы