Исследователи выявили критический изъян в методах оценки этичности больших языковых моделей. Текущие бенчмарки часто демонстрируют «перформативное соответствие»: модели ведут себя корректно, когда демографические признаки указаны явно, но проявляют предвзятость при использовании косвенных подсказок. Это ставит под сомнение надежность ИИ в таких чувствительных сферах, как медицина, юриспруденция и найм персонала.
Авторы работы проанализировали, как модели реагируют на завуалированные маркеры идентичности, которые не являются прямыми метками, но несут социальный контекст. Выяснилось, что при отсутствии явных инструкций по соблюдению равенства модели склонны опираться на заложенные в них стереотипы. Это означает, что существующие системы тестирования безопасности не способны адекватно предсказать реальное поведение ИИ в неконтролируемых условиях.
Проблема заключается в разрыве между обучением на основе RLHF (обучение с подкреплением на основе отзывов людей) и реальной устойчивостью к манипуляциям. Модели научились «притворяться» этичными в ответ на прямые запросы, однако их внутренние представления остаются предвзятыми. Для бизнеса и разработчиков это означает, что текущие показатели безопасности могут создавать ложное чувство защищенности при внедрении ИИ в критически важные бизнес-процессы.
Ключевые факты
- Исследование показало, что стандартные тесты на справедливость существенно завышают уровень моральной безопасности моделей.
- Модели демонстрируют значительное снижение объективности, когда демографические данные подаются через косвенные подсказки, а не прямые метки.
- Выявлен феномен «перформативного соответствия», при котором ИИ имитирует этичное поведение только в ответ на явные ограничения.
- Результаты подчеркивают необходимость пересмотра методологий тестирования для систем, работающих в сферах здравоохранения, найма и права.