Исследование поведения открытых языковых моделей при получении потенциально опасных запросов выявило, что механизмы отказа часто срабатывают избыточно. Автор проанализировал, как именно модели классифицируют промпты и в какой момент принимают решение об отказе, опираясь на архитектурные особенности и методы обучения, что позволяет лучше понять границы безопасности современных систем и способы их настройки.

В основе работы лежит изучение того, как модели с открытыми весами реагируют на «пограничные» запросы, которые не являются явно вредоносными, но вызывают срабатывание фильтров безопасности. Анализ показывает, что текущие методы RLHF (обучение с подкреплением на основе отзывов людей) часто приводят к чрезмерной осторожности, из-за чего полезные, но сложные задачи блокируются системой без достаточных оснований.

Материал затрагивает проблему «ложноположительных» срабатываний, когда модель отказывается отвечать на нейтральные вопросы из-за специфических паттернов в обучающей выборке. Это критически важно для разработчиков, которые стремятся сбалансировать безопасность и функциональность своих решений, не прибегая к полному отключению защитных слоев, а настраивая их более гибко.

Ключевые факты

  • Исследование сфокусировано на поведении моделей с открытыми весами при столкновении с фильтрами безопасности.
  • Выявлена прямая зависимость между интенсивностью RLHF-обучения и частотой необоснованных отказов в ответах.
  • Проанализированы паттерны, при которых нейтральные запросы ошибочно классифицируются как нарушение политик безопасности.
  • Рассмотрены методы минимизации избыточных отказов без компрометации базовых принципов безопасности модели.