Новое исследование на arXiv обращает внимание на проблему когнитивного увядания (cognitive atrophy) в поведении больших языковых моделей (LLM). Авторы отмечают, что существующие бенчмарки оценивают знания, безопасность и качество ответов, но не учитывают, как модели ведут себя в длительных, эмоционально насыщенных диалогах.

Особую озабоченность вызывает использование LLM в сфере поддержки психического здоровья. Исследователи обнаружили, что модели могут терять способность помогать пользователям в принятии решений, рефлексии и копинге (coping) — то есть в умении справляться с трудными ситуациями. Это происходит из-за отсутствия оценки динамического поведения моделей в реальных сценариях.

Авторы предлагают новый подход к оценке LLM, который учитывает не только статические метрики, но и долгосрочные эффекты взаимодействия. Они подчёркивают необходимость разработки более сложных бенчмарков, способных выявлять когнитивное увядание и другие скрытые проблемы в поведении моделей.

Исследование подчёркивает важность более глубокого понимания того, как ИИ-модели влияют на пользователей в реальных условиях. Это особенно актуально для приложений, связанных с поддержкой психического здоровья, где ошибки могут иметь серьёзные последствия.