Исследователи проанализировали механизмы обхода систем безопасности в больших языковых моделях. Выяснилось, что джейлбрейк-атаки не стирают защитные настройки полностью, а избирательно подавляют работу конкретных «голов» внимания (attention heads). Авторы выделили два типа функционально дифференцированных компонентов, отвечающих за обработку вредоносного контента и поддержание безопасности модели в процессе генерации ответов.

В ходе работы была обнаружена группа так называемых «состязательно скомпрометированных голов» (Adversarially Compromised Heads, ACHs), которые преимущественно располагаются в ранних слоях архитектуры трансформера. При проведении атак эти компоненты принудительно отключаются, что позволяет модели игнорировать внутренние фильтры безопасности. В то же время другие механизмы внимания продолжают функционировать, но их влияние на итоговый результат оказывается заблокировано.

Это открытие дает новое понимание того, как именно злоумышленники манипулируют внутренними состояниями нейросетей. Вместо того чтобы переобучать модель, атаки используют уязвимости в иерархической структуре внимания, отключая критические узлы принятия решений. Полученные данные могут лечь в основу более устойчивых методов защиты, направленных на предотвращение подавления ключевых слоев безопасности.

Ключевые факты

  • Атаки на LLM работают через избирательное подавление специфических голов внимания, а не через полное удаление защитных признаков.
  • Выявлены «состязательно скомпрометированные головы» (ACHs), которые концентрируются в ранних слоях нейросети.
  • Подавление ACHs позволяет модели обходить встроенные ограничения безопасности, даже если остальные защитные механизмы остаются активными.
  • Исследование предоставляет механистические доказательства того, как именно джейлбрейк-запросы перехватывают управление вниманием модели.