arXiv · 22.06.2026 ·Безопасность и алайнмент

Исследование: способность LLM распознавать атаки через префиллы

Исследователи проанализировали способность больших языковых моделей к саморефлексии в контексте безопасности. В ходе эксперимента проверялось, могут ли модели самостоятельно определять, что их ответ был скомпрометирован в результате атаки через «враждебный префилл» (adversarial prefill). В тестировании участвовали десять моделей с открытыми весами объемом от 3 до 70 миллиардов параметров, а также четыре специализированных бенчмарка безопасности.

Результаты показали, что ни одна из протестированных моделей не способна надежно распознать факт манипуляции собственным ответом. Даже при наличии базовых навыков интроспекции в стандартных задачах, в условиях целенаправленного воздействия на контекст модели демонстрируют низкую эффективность. Это означает, что текущие механизмы самоконтроля LLM не могут выступать в качестве полноценного инструмента защиты от атак типа «jailbreak» или внедрения вредоносных инструкций.

Авторы работы подчеркивают, что полагаться на внутренние системы самодиагностики моделей для обнаружения атак на текущем этапе развития технологий преждевременно. Полученные данные указывают на необходимость разработки внешних систем мониторинга и фильтрации входящих запросов, так как встроенные защитные механизмы не обеспечивают достаточного уровня надежности при попытках обхода ограничений.

Источник: arXiv

Похожие материалы

Hacker News · Безопасность и алайнмент Почему идеальной защиты от джейлбрейков LLM не существует Исследователи из MIT и других университетов опубликовали работу, в которой доказывают невозможность создания идеальной защиты от джейлбрейков для больших языковых моделей (LLM). Авторы обобщают существующие методы защиты и показывают, что ни один из них не может гарантировать абсолютную безопасность. arXiv · Безопасность и алайнмент GAS-Leak-LLM: генетический алгоритм для взлома LLM Исследователи из Университета Торонто и MIT представили новый метод взлома языковых моделей (LLM) — GAS-Leak-LLM. Этот подход использует генетические алгоритмы для оптимизации суффиксов в запросах, что позволяет обходить механизмы защиты и получать нежелательные ответы от моделей. Авторы демонстрируют, что даже хорошо защищённые коммерческие системы уязвимы к таким атакам. arXiv · Безопасность и алайнмент Исследование механизмов возникновения небезопасного поведения в LLM Исследователи изучили, как дообучение языковых моделей на небезопасном коде приводит к появлению нежелательных паттернов поведения. В работе анализируются четыре семейства моделей: Qwen2.5-1.5B, Gemma-2-2B, Llama-3.2-1B и Ministral-3-3B. Авторы проверяли гипотезу о том, что подобные сбои в алайнменте имеют общую причинно-следственную природу, отражающуюся в конкретных направлениях активации нейронной сети. arXiv · Исследования и наука Исследование: классификация киберугроз с помощью открытых моделей Учёные изучили, как открытые языковые модели могут автоматизировать классификацию киберугроз по стандарту MITRE ATT&CK. Ранее этот процесс требовал значительных человеческих усилий, а до появления LLM автоматизация была ограничена сложностью анализа неструктурированных отчётов о киберугрозах (CTI). arXiv · Оценка и бенчмарки Новый бенчмарк CWE-Trace для проверки навыков LLM в поиске уязвимостей Исследователи представили фреймворк CWE-Trace, предназначенный для оценки способности больших языковых моделей обнаруживать уязвимости в системном программном обеспечении. Основная проблема существующих решений заключается в том, что модели часто показывают высокие результаты на тестах лишь благодаря заучиванию данных, а не реальному пониманию принципов безопасности. Новый набор данных включает 834 тщательно отобранных примера из ядра Linux, охватывающих 74 типа типичных ошибок программирования (CWE). arXiv · ИИ в бизнесе Проблемы тестирования LLM-приложений в реальных условиях Исследователи проанализировали работу ИИ-ассистента для поиска недвижимости, который объединяет работу больших языковых моделей, поддержку нескольких международных рынков и динамический фронтенд. Несмотря на наличие автоматизированного набора из 1553 тестов, которые успешно проходили проверку, пользователи продолжали сталкиваться с критическими ошибками в интерфейсе. Это выявило разрыв между технической «зеленой зоной» тестов и реальным поведением системы в условиях непредсказуемых внешних данных. Lobsters · Безопасность и алайнмент Исследование механизмов промпт-инъекций через концепцию ролевой путаницы Новое исследование предлагает рассматривать проблему промпт-инъекций в больших языковых моделях через призму «ролевой путаницы» (role confusion). Авторы анализируют, как модели, обученные следовать инструкциям и принимать определенные системные роли, теряют границы между заданными правилами и пользовательским вводом. В основе проблемы лежит конфликт приоритетов, когда модель не может однозначно определить, какой из входящих сигналов является приоритетным — системный промпт или вредоносная инструкция, замаскированная под контекст задачи. Hacker News · Исследования и наука Мелани Митчелл о непредсказуемости современных LLM Профессор Мелани Митчелл в своей статье для Yale Review анализирует феномен «зубчатого интеллекта» (jagged intelligence) у современных языковых моделей. Автор отмечает, что ИИ демонстрирует крайне неравномерные способности: системы могут блестяще справляться со сложными логическими задачами или написанием кода, но при этом совершать элементарные ошибки в простых вопросах, требующих здравого смысла или понимания физического мира. Hacker News · ИИ в бизнесе Эффективность LLM при аудите безопасности кода на Rust Исследование применения больших языковых моделей для поиска уязвимостей в языке программирования Rust показало неожиданно высокие результаты. Несмотря на встроенные механизмы безопасности Rust, такие как проверка владения памятью, критические ошибки все еще могут возникать в блоках unsafe или при использовании небезопасных API. Использование специализированных промптов и итеративного анализа позволяет нейросетям находить сложные логические дефекты, которые часто пропускают традиционные статические анализаторы. arXiv · Безопасность и алайнмент Исследование влияния примеров на поведение безопасных LLM Исследователи проанализировали, как модели с настроенными механизмами безопасности реагируют на смешанные примеры в контекстном обучении. В ходе эксперимента в промпты добавляли как безобидные диалоги, так и демонстрации выполнения вредоносных запросов. Цель работы — понять, как именно нейросети интерпретируют противоречивые инструкции и в какой момент «безопасное» поведение начинает уступать место выполнению опасных команд.

← Все материалы