Разработчик Фернандо Искьердо провел публичный эксперимент, предложив 2000 пользователям попытаться взломать его ИИ-ассистента, чтобы обойти системные инструкции и извлечь скрытые данные. В ходе тестирования выяснилось, что даже при наличии базовых защитных механизмов, пользователи находят способы манипуляции моделью, используя методы социальной инженерии и специфические промпты для обхода ограничений.

Эксперимент показал, что классические методы фильтрации входящих запросов часто оказываются недостаточными против целенаправленных атак. Участники использовали цепочки логических уловок, заставляя модель игнорировать заданные правила безопасности. Полученные данные позволили автору классифицировать наиболее эффективные векторы атак и внедрить дополнительные уровни валидации ответов, что подчеркивает необходимость постоянного стресс-тестирования систем перед их выводом в продакшн.

Результаты подчеркивают разрыв между теоретической защищенностью LLM и их реальной устойчивостью в условиях открытого доступа. Автор отмечает, что автоматизированные системы мониторинга должны дополняться эвристиками, способными распознавать попытки «джейлбрейка» на ранних стадиях диалога, а не только по факту нарушения правил.

Ключевые факты

  • В эксперименте приняли участие 2000 пользователей, пытавшихся скомпрометировать ИИ-ассистента.
  • Основными методами обхода защиты стали сложные многоходовые промпты и ролевые игры, направленные на дезориентацию модели.
  • Анализ показал, что стандартные системные инструкции легко игнорируются при использовании методов «отравления» контекста.
  • По итогам тестирования была внедрена многоуровневая система фильтрации, основанная на анализе намерений пользователя до генерации финального ответа.