Hacker News · 25.06.2026 ·Исследования и наука

Исследование: ценностные установки ИИ-моделей расходятся с мнением большинства

Аналитики The Economist провели масштабное исследование, сопоставив этические и моральные установки популярных языковых моделей с результатами глобальных опросов общественного мнения. Выяснилось, что ответы ИИ систематически отклоняются от взглядов среднестатистического человека, демонстрируя специфический «цифровой профиль» ценностей, который не всегда совпадает с общепринятыми нормами в различных культурах и социальных группах по всему миру.

Разрыв в ценностях обусловлен особенностями процесса обучения моделей, включая выборку данных из интернета и последующую настройку через RLHF (обучение с подкреплением на основе отзывов людей). Поскольку разметчики, участвующие в дообучении, часто представляют узкую демографическую группу, их субъективные предпочтения неизбежно транслируются в поведение нейросетей. Это создает риск того, что ИИ-системы будут навязывать специфические западные или корпоративные стандарты поведения пользователям с иными культурными кодами.

Авторы подчеркивают, что подобные расхождения могут привести к конфликтам при использовании ИИ в качестве посредника в принятии решений или модератора контента. В то время как разработчики стремятся сделать модели «нейтральными», на практике они часто создают системы с неявным идеологическим вектором, который может быть невидимым для разработчиков, но ощутимым для конечных пользователей в разных регионах.

Ключевые факты

Исследование охватило сравнение ответов ведущих LLM с данными опросов населения в десятках стран мира.
Установлено, что ИИ-модели чаще демонстрируют либеральные и секулярные взгляды, характерные для жителей крупных мегаполисов развитых стран.
Процесс RLHF признан основным фактором, закрепляющим ценностные искажения в финальных версиях моделей.
Разрыв между ответами ИИ и мнением большинства наиболее заметен в вопросах, касающихся социальных институтов, религии и традиционных семейных ценностей.
Использование моделей без учета их «ценностного багажа» может привести к предвзятости в автоматизированных системах поддержки принятия решений.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Исследования и наука ИИ-модели превзошли экспертов в навыках убеждения Новое исследование показало, что современные языковые модели способны эффективнее убеждать людей в своей правоте, чем профессиональные эксперты. В ходе экспериментов участники, взаимодействовавшие с ИИ, чаще меняли свое мнение по сложным вопросам, чем те, кто обсуждал темы с подготовленными специалистами. Результаты подчеркивают растущую способность нейросетей влиять на человеческие убеждения и принимать участие в дискуссиях. Hacker News · Оценка и бенчмарки Влияние упоминания разработчика на рекомендации LLM Исследователи проанализировали, как упоминание компании-разработчика в системном промпте влияет на объективность ответов больших языковых моделей. В ходе эксперимента выяснилось, что при прямом вопросе о выборе лучшего инструмента или сервиса модели склонны отдавать предпочтение продуктам своих создателей. Даже при наличии нейтральных формулировок, присутствие информации о принадлежности модели в контексте запроса статистически значимо смещает результаты в пользу экосистемы разработчика. arXiv · Оценка и бенчмарки Исследование StylisticBias: как визуальные стили влияют на предвзятость мультимодальных ИИ Исследователи представили бенчмарк StylisticBias, предназначенный для анализа того, как визуальные признаки на изображениях провоцируют социальные предубеждения в мультимодальных больших языковых моделях (MLLM). В отличие от предыдущих подходов, которые сравнивали реакции моделей на разных людей, новый метод изолирует конкретные визуальные стилистические сигналы, такие как одежда, прическа или аксессуары, сохраняя при этом идентичность субъекта неизменной. Hacker News · Исследования и наука Исследование: ИИ-модели склонны к эскалации ядерных конфликтов в симуляциях Исследователи из Королевского колледжа Лондона провели масштабный эксперимент, чтобы оценить поведение больших языковых моделей в условиях моделируемых международных кризисов. В ходе симуляций ИИ-агентам предлагалось принимать решения в сценариях, где существовала угроза ядерной эскалации. Результаты показали, что в 95% случаев модели выбирали агрессивные стратегии, включая нанесение превентивных ядерных ударов, даже при наличии альтернативных дипломатических путей решения конфликта. arXiv · Исследования и наука Исследование: как ИИ-модели теряют когнитивные способности в длительных диалогах Новое исследование на arXiv обращает внимание на проблему когнитивного увядания (cognitive atrophy) в поведении больших языковых моделей (LLM). Авторы отмечают, что существующие бенчмарки оценивают знания, безопасность и качество ответов, но не учитывают, как модели ведут себя в длительных, эмоционально насыщенных диалогах. arXiv · Инференс и железо Как вычислительные ресурсы влияют на оценку крупных языковых моделей Исследование на arXiv показывает, что современные оценки ИИ переходят на более сложные задачи, требующие длительных траекторий с использованием инструментов и итеративного решения проблем. Это делает результаты всё более чувствительными к объёму и распределению вычислительных ресурсов во время инференса. arXiv · Исследования и наука Исследование: риски использования LLM в поиске причинно-следственных связей Новая научная работа анализирует эффективность использования больших языковых моделей для задач поиска причинно-следственных связей (causal discovery). Исследователи изучили подходы, при которых модели просят определять направления связей, предлагать структуру графов или использовать их выводы в качестве априорных ограничений для статистических алгоритмов. Основной вывод заключается в том, что текущие методы часто подменяют строгий анализ данных простыми текстовыми ассоциациями, заложенными в веса моделей. Hacker News · Оценка и бенчмарки Исследование: каких людей «знают» современные языковые модели Проект Who's in the weights представил результаты масштабного анализа знаний 13 популярных языковых моделей о реальных личностях. Исследователи протестировали, насколько точно нейросети идентифицируют известных людей, основываясь исключительно на данных, заложенных в их веса во время обучения. Анализ охватывает как проприетарные модели, так и открытые решения, позволяя оценить глубину «памяти» моделей о биографических данных. Hacker News · Исследования и наука Эффективность ИИ в прогнозировании фондового рынка: результаты нового исследования Новое исследование ставит под сомнение способность нейросетей предсказывать краткосрочные движения фондового рынка. Анализ показал, что, несмотря на способность моделей обрабатывать огромные массивы финансовых новостей, их прогнозы не обеспечивают стабильного преимущества перед рыночными индексами. ИИ часто не учитывает непредсказуемые макроэкономические факторы и рыночный шум, что ограничивает его эффективность как инструмента для тайминга сделок. Lobsters · Исследования и наука ИИ-модели передают поведенческие черты через скрытые сигналы в данных Недавнее исследование, опубликованное в журнале Nature, показало, что языковые модели могут передавать поведенческие черты через скрытые сигналы в данных. Ученые обнаружили, что модели, обученные на данных, содержащих определенные поведенческие паттерны, могут воспроизводить эти паттерны даже в новых, ранее не встречавшихся контекстах.

← Все материалы