Исследователи представили подход AIMS, который повышает эффективность классификации безопасности LLM за счет явного моделирования намерений пользователя. Внедрение описания намерений в процесс обучения позволяет моделям точнее различать вредоносные запросы и безопасные взаимодействия. Новый датасет из 1724 сложных примеров помогает оценивать работу систем безопасности в различных режимах обучения, включая SFT и обучение с подкреплением на основе предпочтений.

Традиционные классификаторы безопасности часто сталкиваются с трудностями при интерпретации контекста, что приводит к ложноположительным или ложноотрицательным срабатываниям. Авторы работы доказывают, что разделение этапа анализа намерения и этапа вынесения вердикта о безопасности значительно снижает количество ошибок. Модель, обученная на данных с явным указанием интента, лучше справляется с «пограничными» запросами, где формально безопасные слова могут скрывать вредоносный подтекст.

Данный метод применим к широкому спектру архитектур и стратегий дообучения, включая дистилляцию рассуждений. Использование AIMS позволяет разработчикам систем фильтрации контента более гибко настраивать пороги срабатывания, основываясь не только на лексическом составе промпта, но и на векторе цели пользователя. Это делает защиту моделей более устойчивой к попыткам обхода фильтров через сложные лингвистические конструкции.

Ключевые факты

  • Представлен датасет AIMS, содержащий 1724 размеченных человеком примера сложных запросов.
  • Каждый пример в наборе данных включает описание намерения пользователя и соответствующую метку вредоносности.
  • Метод протестирован на различных режимах обучения: supervised fine-tuning (SFT), preference learning и дистилляция рассуждений.
  • Подход позволяет снизить количество ошибок классификации за счет явного моделирования связи между промптом и итоговым решением о безопасности.