arXiv · 25.06.2026 ·Безопасность и алайнмент

Метод AIMS: повышение точности классификации безопасности LLM через анализ намерений

Исследователи представили подход AIMS, который повышает эффективность классификации безопасности LLM за счет явного моделирования намерений пользователя. Внедрение описания намерений в процесс обучения позволяет моделям точнее различать вредоносные запросы и безопасные взаимодействия. Новый датасет из 1724 сложных примеров помогает оценивать работу систем безопасности в различных режимах обучения, включая SFT и обучение с подкреплением на основе предпочтений.

Традиционные классификаторы безопасности часто сталкиваются с трудностями при интерпретации контекста, что приводит к ложноположительным или ложноотрицательным срабатываниям. Авторы работы доказывают, что разделение этапа анализа намерения и этапа вынесения вердикта о безопасности значительно снижает количество ошибок. Модель, обученная на данных с явным указанием интента, лучше справляется с «пограничными» запросами, где формально безопасные слова могут скрывать вредоносный подтекст.

Данный метод применим к широкому спектру архитектур и стратегий дообучения, включая дистилляцию рассуждений. Использование AIMS позволяет разработчикам систем фильтрации контента более гибко настраивать пороги срабатывания, основываясь не только на лексическом составе промпта, но и на векторе цели пользователя. Это делает защиту моделей более устойчивой к попыткам обхода фильтров через сложные лингвистические конструкции.

Ключевые факты

Представлен датасет AIMS, содержащий 1724 размеченных человеком примера сложных запросов.
Каждый пример в наборе данных включает описание намерения пользователя и соответствующую метку вредоносности.
Метод протестирован на различных режимах обучения: supervised fine-tuning (SFT), preference learning и дистилляция рассуждений.
Подход позволяет снизить количество ошибок классификации за счет явного моделирования связи между промптом и итоговым решением о безопасности.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

The Decoder · Безопасность и алайнмент Новый метод обучения ИИ через внедрение полезных поведенческих черт Исследователи OpenAI представили подход к обучению моделей, основанный на закреплении конкретных поведенческих паттернов, таких как правдивость и готовность к исправлению ошибок. Вместо использования конституционных ограничений, как это делает Anthropic, авторы применяют метод обучения с подкреплением на небольших наборах данных, содержащих примеры желаемого поведения. Такой подход позволяет модели переносить усвоенные принципы на различные предметные области, делая систему более устойчивой к попыткам манипуляции. Hacker News · Безопасность и алайнмент Выпущен инструмент AICU для автоматизированного поиска уязвимостей в LLM Представлен проект AICU — специализированный сканер для поиска уязвимостей в больших языковых моделях (LLM). Инструмент предназначен для проведения автоматизированного «красного тестирования» (red teaming), позволяя выявлять слабые места в защите моделей, которые могут привести к генерации нежелательного контента или обходу установленных ограничений безопасности. arXiv · Безопасность и алайнмент Метод защиты LLM от отравления данных при дообучении Исследователи представили метод «Detect, Unlearn, Restore» для защиты моделей суммаризации текста от атак типа data poisoning. Техника позволяет выявлять вредоносные примеры в обучающей выборке, удалять их влияние на веса модели и восстанавливать исходную производительность системы. Это критически важно для защиты специализированных LLM, которые подвержены манипуляциям через небольшие наборы данных при дообучении. arXiv · Безопасность и алайнмент Динамический анализ жизненного цикла для защиты ML-моделей Исследователи представили новый подход к обеспечению безопасности машинного обучения, направленный на выявление вредоносного кода, скрытого внутри весов и архитектур предобученных моделей. Традиционные методы защиты, основанные на статическом анализе форматов файлов и поиске известных сигнатур атак, часто оказываются неэффективными против современных угроз, способных обходить стандартные фильтры. arXiv · Безопасность и алайнмент Model Forensics: новый подход к анализу причин опасного поведения моделей Исследователи представили методологию «модельной криминалистики» (model forensics), позволяющую различать случайные ошибки ИИ от целенаправленного вредоносного поведения. В отличие от существующих методов, фокусирующихся только на факте опасного действия, новый подход анализирует внутренние причины модели, помогая понять, было ли поведение вызвано реальным отсутствием алайнмента или же простой путаницей в инструкциях пользователя. arXiv · Безопасность и алайнмент Исследование влияния примеров на поведение безопасных LLM Исследователи проанализировали, как модели с настроенными механизмами безопасности реагируют на смешанные примеры в контекстном обучении. В ходе эксперимента в промпты добавляли как безобидные диалоги, так и демонстрации выполнения вредоносных запросов. Цель работы — понять, как именно нейросети интерпретируют противоречивые инструкции и в какой момент «безопасное» поведение начинает уступать место выполнению опасных команд. arXiv · Машинное обучение Метод MAST для точечного удаления нежелательных навыков рассуждения в LLM Исследователи представили метод MAST (Mechanism-Aligned Selective Targeting), предназначенный для избирательного удаления специфических паттернов рассуждения, привитых моделям через обучение с подкреплением (RLVR). Традиционные подходы к «забыванию» (unlearning) часто приводят к деградации общих способностей модели из-за полнопараметрических обновлений. Новый метод позволяет изолировать и корректировать только те веса, которые отвечают за конкретные логические цепочки, минимизируя побочный ущерб для базовых знаний модели. Hacker News · Данные и инжиниринг Использование LLM как «сита» для масштабируемого сбора данных Автор блога Zamechek продемонстрировал эффективный метод расширения наборов данных с помощью LLM, названный «ситом». Начав всего с 12 имен, алгоритм итеративно находил новые сущности, проверяя их на соответствие заданным критериям. Этот подход позволяет автоматизировать сбор специфических списков, минимизируя ручную работу и обеспечивая высокую точность фильтрации данных при минимальных исходных ресурсах. Hacker News · Безопасность и алайнмент Анализ механизмов отказа LLM в выполнении запросов Исследование поведения открытых языковых моделей при получении потенциально опасных запросов выявило, что механизмы отказа часто срабатывают избыточно. Автор проанализировал, как именно модели классифицируют промпты и в какой момент принимают решение об отказе, опираясь на архитектурные особенности и методы обучения, что позволяет лучше понять границы безопасности современных систем и способы их настройки. arXiv · Безопасность и алайнмент Скрытые уязвимости LLM при дообучении на задачах безопасности Исследователи обнаружили, что дообучение LLM для задач классификации безопасности создает критические уязвимости, которые не выявляются стандартными методами тестирования. Модели начинают полагаться на поверхностные токеновые индикаторы, сохраняя высокую точность на тестовых выборках, но становясь крайне уязвимыми к простым семантическим трансформациям, таким как замена псевдонимов в PowerShell или изменение структуры команд.

← Все материалы