Исследователи выявили критическую уязвимость в методах вычислительных социальных наук: использование ключевых слов для оценки риторической позиции часто приводит к ложным выводам. Анализ 85 интервью показал, что статистически значимые корреляции между эмоциональной окраской и уверенностью высказываний могут быть лишь артефактом инструмента измерения, а не реальной характеристикой текста, что ставит под сомнение точность многих текущих исследований.

Авторы работы продемонстрировали, что стандартные лексиконы, основанные на частотном анализе ключевых слов, игнорируют контекстуальные нюансы и семантическую структуру языка. В результате алгоритмы часто «обнаруживают» закономерности там, где их нет, из-за специфического подбора слов в словарях, которые искусственно связывают определенные лексемы с заданными категориями уверенности или аффекта.

Данное исследование подчеркивает необходимость пересмотра подходов к анализу тональности и риторики в больших данных. Вместо опоры на простые списки слов ученые предлагают переходить к более сложным методам, учитывающим синтаксические связи и прагматику высказываний, чтобы избежать систематических ошибок в интерпретации результатов социальных исследований.

Ключевые факты

  • Исследование базируется на анализе 85 интервью четырех публичных интеллектуалов, охватывающих период с 2016 по 2026 год.
  • Выявлена ложная корреляция между негативным аффектом и эмфатической уверенностью, возникающая исключительно из-за ограничений используемых лексиконов.
  • Показано, что статистически значимые эффекты в вычислительных социальных науках могут быть полностью обусловлены несовершенством измерительного инструмента.
  • Работа призывает к отказу от упрощенных методов подсчета ключевых слов в пользу моделей, учитывающих контекстуальную семантику.