Аналитики The Economist провели масштабное исследование, сопоставив этические и моральные установки популярных языковых моделей с результатами глобальных опросов общественного мнения. Выяснилось, что ответы ИИ систематически отклоняются от взглядов среднестатистического человека, демонстрируя специфический «цифровой профиль» ценностей, который не всегда совпадает с общепринятыми нормами в различных культурах и социальных группах по всему миру.
Разрыв в ценностях обусловлен особенностями процесса обучения моделей, включая выборку данных из интернета и последующую настройку через RLHF (обучение с подкреплением на основе отзывов людей). Поскольку разметчики, участвующие в дообучении, часто представляют узкую демографическую группу, их субъективные предпочтения неизбежно транслируются в поведение нейросетей. Это создает риск того, что ИИ-системы будут навязывать специфические западные или корпоративные стандарты поведения пользователям с иными культурными кодами.
Авторы подчеркивают, что подобные расхождения могут привести к конфликтам при использовании ИИ в качестве посредника в принятии решений или модератора контента. В то время как разработчики стремятся сделать модели «нейтральными», на практике они часто создают системы с неявным идеологическим вектором, который может быть невидимым для разработчиков, но ощутимым для конечных пользователей в разных регионах.
Ключевые факты
- Исследование охватило сравнение ответов ведущих LLM с данными опросов населения в десятках стран мира.
- Установлено, что ИИ-модели чаще демонстрируют либеральные и секулярные взгляды, характерные для жителей крупных мегаполисов развитых стран.
- Процесс RLHF признан основным фактором, закрепляющим ценностные искажения в финальных версиях моделей.
- Разрыв между ответами ИИ и мнением большинства наиболее заметен в вопросах, касающихся социальных институтов, религии и традиционных семейных ценностей.
- Использование моделей без учета их «ценностного багажа» может привести к предвзятости в автоматизированных системах поддержки принятия решений.