Исследователи представили RSPC — корпус данных из 1799 постов Reddit, размеченных профессиональными психиатрами для оценки психологического состояния пользователей. В отличие от предыдущих работ, рассматривающих ментальное здоровье изолированно, этот бенчмарк фокусируется на взаимосвязи психических расстройств и стрессовых триггеров, возникающих в контексте цифровых отношений, что позволяет моделям NLP лучше учитывать межличностный контекст при анализе текстов.

Традиционные подходы в обработке естественного языка часто игнорируют социальную среду, в которой проявляются симптомы. Новый корпус данных заполняет этот пробел, предоставляя структурированную информацию о диагностических категориях в привязке к специфическим ситуациям в отношениях, например, в парах на расстоянии. Это помогает создавать более точные системы поддержки и анализа эмоционального состояния пользователей в социальных сетях.

Использование экспертной разметки психиатрами повышает надежность бенчмарка, делая его ценным инструментом для обучения моделей, способных распознавать признаки психологического дистресса в неформальном общении. Разработчики могут использовать RSPC для дообучения LLM, чтобы те точнее интерпретировали контекстуальные факторы, влияющие на психическое благополучие, и эффективнее выявляли ранние признаки депрессии или тревожных состояний в переписке.

Ключевые факты

  • Корпус RSPC включает 1799 постов с платформы Reddit, отобранных для анализа ментального здоровья.
  • Разметка выполнена профессиональными психиатрами, что обеспечивает высокую клиническую точность данных.
  • Основной фокус исследования — выявление связи между психическими расстройствами и триггерами в отношениях на расстоянии.
  • Датасет предназначен для улучшения способности NLP-моделей учитывать межличностный контекст при диагностике эмоционального состояния.