Исследователи проанализировали, как активное участие редакторов Wikipedia в формировании контента влияет на ценностные установки больших языковых моделей. Изучение показало, что специфические идеологические правки и дискуссии внутри сообщества энциклопедии напрямую коррелируют с тем, как модели обучаются интерпретировать спорные темы и формировать ответы, отражая предвзятость, заложенную в исходных данных.
Авторы работы сосредоточились на механизмах, с помощью которых «адвокация» внутри Wikipedia — процесс систематического редактирования статей для продвижения определенных точек зрения — переносится в веса нейросетей. В ходе обучения на огромных массивах данных модели не просто усваивают факты, но и перенимают риторические паттерны и оценочные суждения, доминирующие в наиболее активно редактируемых разделах ресурса.
Результаты исследования подчеркивают проблему «отравления» данных через легитимные каналы. Поскольку Wikipedia является одним из ключевых источников для обучения современных LLM, любые организованные попытки изменения контента пользователями становятся частью фундаментальной логики моделей. Это создает риск того, что алгоритмические ответы будут транслировать взгляды наиболее активных групп редакторов, а не нейтральную энциклопедическую позицию.
Ключевые факты
- Исследование подтверждает прямую зависимость между активностью редакторов Wikipedia и ценностными установками, формируемыми в LLM.
- Механизм «адвокации» позволяет группам пользователей влиять на то, как модели оценивают спорные общественные вопросы.
- Использование Wikipedia как основного источника данных для обучения делает модели уязвимыми к систематическим искажениям, заложенным в процессе редактирования статей.
- Работа демонстрирует, что предвзятость в моделях часто является следствием не только алгоритмических решений, но и социальной динамики внутри источников данных для обучения.