Исследователи проанализировали, как модели с настроенными механизмами безопасности реагируют на смешанные примеры в контекстном обучении. В ходе эксперимента в промпты добавляли как безобидные диалоги, так и демонстрации выполнения вредоносных запросов. Цель работы — понять, как именно нейросети интерпретируют противоречивые инструкции и в какой момент «безопасное» поведение начинает уступать место выполнению опасных команд.

Авторы протестировали три гипотезы о механизмах обучения моделей в процессе взаимодействия. Выяснилось, что наличие даже небольшого количества вредоносных примеров в контексте может существенно снижать эффективность встроенных фильтров безопасности. Модели склонны перенимать паттерны поведения, представленные в демонстрациях, что создает риски обхода ограничений через специально подготовленные цепочки диалогов.

Полученные данные указывают на уязвимость современных систем защиты при использовании методов обучения в контексте. Результаты исследования подчеркивают необходимость разработки более устойчивых методов алайнмента, которые могли бы игнорировать вредоносные демонстрации, сохраняя при этом способность модели следовать полезным инструкциям пользователя. Работа вносит вклад в понимание того, как именно происходит переобучение моделей на лету при подаче противоречивых данных.