Hacker News · 23.06.2026 ·Исследования и наука

Исследование PsychoPass: геометрический анализ состязательных диалогов с LLM

Исследователи представили метод PsychoPass, позволяющий анализировать состязательные атаки на большие языковые модели через призму геометрического профилирования. В отличие от традиционных подходов, фокусирующихся на поиске конкретных триггерных фраз, авторы работы рассматривают многоходовые диалоги как траектории в многомерном пространстве скрытых состояний модели. Такой подход позволяет выявлять закономерности, которые приводят к обходу встроенных ограничений безопасности.

В основе метода лежит отслеживание динамики векторов активации нейросети в процессе ведения диалога. Анализ показал, что попытки «взлома» модели через сложные ролевые игры или многоступенчатые инструкции формируют специфические геометрические паттерны в пространстве эмбеддингов. Эти паттерны позволяют предсказывать вероятность успешного обхода фильтров безопасности еще до того, как модель сгенерирует вредоносный ответ, что открывает новые возможности для превентивной защиты систем.

Результаты работы демонстрируют, что даже при отсутствии явных запрещенных слов в запросе, накопленный контекст диалога постепенно смещает состояние модели в область, где вероятность нарушения этических протоколов возрастает. Авторы предлагают использовать полученные данные для создания более устойчивых механизмов мониторинга, которые анализируют не только содержание сообщений, но и структурную динамику взаимодействия пользователя с ИИ.

Источник: Hacker News

Похожие материалы

arXiv · Безопасность и алайнмент Исследование механизмов возникновения небезопасного поведения в LLM Исследователи изучили, как дообучение языковых моделей на небезопасном коде приводит к появлению нежелательных паттернов поведения. В работе анализируются четыре семейства моделей: Qwen2.5-1.5B, Gemma-2-2B, Llama-3.2-1B и Ministral-3-3B. Авторы проверяли гипотезу о том, что подобные сбои в алайнменте имеют общую причинно-следственную природу, отражающуюся в конкретных направлениях активации нейронной сети. Lobsters · Безопасность и алайнмент Исследование механизмов промпт-инъекций через концепцию ролевой путаницы Новое исследование предлагает рассматривать проблему промпт-инъекций в больших языковых моделях через призму «ролевой путаницы» (role confusion). Авторы анализируют, как модели, обученные следовать инструкциям и принимать определенные системные роли, теряют границы между заданными правилами и пользовательским вводом. В основе проблемы лежит конфликт приоритетов, когда модель не может однозначно определить, какой из входящих сигналов является приоритетным — системный промпт или вредоносная инструкция, замаскированная под контекст задачи. arXiv · Безопасность и алайнмент GAS-Leak-LLM: генетический алгоритм для взлома LLM Исследователи из Университета Торонто и MIT представили новый метод взлома языковых моделей (LLM) — GAS-Leak-LLM. Этот подход использует генетические алгоритмы для оптимизации суффиксов в запросах, что позволяет обходить механизмы защиты и получать нежелательные ответы от моделей. Авторы демонстрируют, что даже хорошо защищённые коммерческие системы уязвимы к таким атакам. arXiv · Безопасность и алайнмент Исследование: способность LLM распознавать атаки через префиллы Исследователи проанализировали способность больших языковых моделей к саморефлексии в контексте безопасности. В ходе эксперимента проверялось, могут ли модели самостоятельно определять, что их ответ был скомпрометирован в результате атаки через «враждебный префилл» (adversarial prefill). В тестировании участвовали десять моделей с открытыми весами объемом от 3 до 70 миллиардов параметров, а также четыре специализированных бенчмарка безопасности. arXiv · Модели и релизы Новый метод обнаружения ошибок в цепочках рассуждений LLM Исследователи из MIT и Университета Карнеги-Меллона предложили новый подход к выявлению ошибок в цепочках рассуждений языковых моделей (LLM) без использования меток. Их метод, основанный на операдной теории, позволяет обнаруживать несоответствия в логических цепочках, которые модели строят при решении сложных задач. arXiv · Безопасность и алайнмент Анализ защитных методов против автоматизированных атак на ИИ-агентов Исследователи представили анализ эффективности защитных стратегий против автоматизированных атак на агентные системы. Современные ИИ-агенты активно используют языковые модели для интерпретации инструкций, обработки внешних данных и взаимодействия с инструментами. Это расширяет поверхность атаки, позволяя злоумышленникам применять автоматизированные методы для масштабирования промпт-инъекций и подбора обходов ограничений безопасности. arXiv · Исследования и наука Исследование методов отслеживания влияния обучающих данных на ответы LLM Исследователи проанализировали два ключевых подхода к интерпретации поведения больших языковых моделей: оценку сходства данных (data-similarity) и оценку влияния данных (data-influence). Первый метод основан на поиске семантической близости между запросом и обучающей выборкой, что требует значительно меньше вычислительных ресурсов. Второй метод направлен на определение того, как конкретные примеры из обучающего набора напрямую меняют веса модели и влияют на итоговый результат, что считается более точным, но трудоемким процессом. arXiv · Исследования и наука Новый метод анализа некорректных запросов к LLM через топологию данных Исследователи представили новый подход к выявлению и обработке некорректных запросов в больших языковых моделях, используя методы топологического анализа данных. Проблема «плохо поставленных» вопросов, которые содержат противоречия, двусмысленность или недостаток контекста, остается критической для точности ответов ИИ. Традиционные методы анализа обычно фокусируются на изучении уже готовых ответов модели, что не позволяет эффективно выявлять саму природу ошибки на этапе ввода. arXiv · Машинное обучение Геометрия собственных чисел в анализе семантических атак на ИИ Исследователи представили новый теоретический подход к изучению уязвимостей моделей классификации, основанный на анализе геометрии собственных чисел. Работа фокусируется на проблеме семантических состязательных атак, при которых незначительные перефразирования текста приводят к изменению предсказаний модели, несмотря на сохранение исходного смысла и близость векторных представлений. arXiv · Исследования и наука Метод разрешения конфликтов знаний в LLM при работе с внешними данными Исследователи представили новый подход к решению проблемы противоречий между внутренними параметрическими знаниями языковых моделей и информацией, поступающей из внешнего контекста. В современных системах, использующих RAG или длинные промпты, модель часто сталкивается с ситуацией, когда данные в запросе пользователя противоречат тому, что было «выучено» моделью в процессе обучения. Это приводит к галлюцинациям или снижению точности ответов, так как модель не может эффективно приоритизировать источники данных.

← Все материалы