Исследователи проанализировали способность больших языковых моделей к саморефлексии в контексте безопасности. В ходе эксперимента проверялось, могут ли модели самостоятельно определять, что их ответ был скомпрометирован в результате атаки через «враждебный префилл» (adversarial prefill). В тестировании участвовали десять моделей с открытыми весами объемом от 3 до 70 миллиардов параметров, а также четыре специализированных бенчмарка безопасности.
Результаты показали, что ни одна из протестированных моделей не способна надежно распознать факт манипуляции собственным ответом. Даже при наличии базовых навыков интроспекции в стандартных задачах, в условиях целенаправленного воздействия на контекст модели демонстрируют низкую эффективность. Это означает, что текущие механизмы самоконтроля LLM не могут выступать в качестве полноценного инструмента защиты от атак типа «jailbreak» или внедрения вредоносных инструкций.
Авторы работы подчеркивают, что полагаться на внутренние системы самодиагностики моделей для обнаружения атак на текущем этапе развития технологий преждевременно. Полученные данные указывают на необходимость разработки внешних систем мониторинга и фильтрации входящих запросов, так как встроенные защитные механизмы не обеспечивают достаточного уровня надежности при попытках обхода ограничений.