Исследователи представили метод PsychoPass, позволяющий анализировать состязательные атаки на большие языковые модели через призму геометрического профилирования. В отличие от традиционных подходов, фокусирующихся на поиске конкретных триггерных фраз, авторы работы рассматривают многоходовые диалоги как траектории в многомерном пространстве скрытых состояний модели. Такой подход позволяет выявлять закономерности, которые приводят к обходу встроенных ограничений безопасности.
В основе метода лежит отслеживание динамики векторов активации нейросети в процессе ведения диалога. Анализ показал, что попытки «взлома» модели через сложные ролевые игры или многоступенчатые инструкции формируют специфические геометрические паттерны в пространстве эмбеддингов. Эти паттерны позволяют предсказывать вероятность успешного обхода фильтров безопасности еще до того, как модель сгенерирует вредоносный ответ, что открывает новые возможности для превентивной защиты систем.
Результаты работы демонстрируют, что даже при отсутствии явных запрещенных слов в запросе, накопленный контекст диалога постепенно смещает состояние модели в область, где вероятность нарушения этических протоколов возрастает. Авторы предлагают использовать полученные данные для создания более устойчивых механизмов мониторинга, которые анализируют не только содержание сообщений, но и структурную динамику взаимодействия пользователя с ИИ.