arXiv · 16.06.2026 ·Исследования и наука

Исследование: как ИИ-модели теряют когнитивные способности в длительных диалогах

Новое исследование на arXiv обращает внимание на проблему когнитивного увядания (cognitive atrophy) в поведении больших языковых моделей (LLM). Авторы отмечают, что существующие бенчмарки оценивают знания, безопасность и качество ответов, но не учитывают, как модели ведут себя в длительных, эмоционально насыщенных диалогах.

Особую озабоченность вызывает использование LLM в сфере поддержки психического здоровья. Исследователи обнаружили, что модели могут терять способность помогать пользователям в принятии решений, рефлексии и копинге (coping) — то есть в умении справляться с трудными ситуациями. Это происходит из-за отсутствия оценки динамического поведения моделей в реальных сценариях.

Авторы предлагают новый подход к оценке LLM, который учитывает не только статические метрики, но и долгосрочные эффекты взаимодействия. Они подчёркивают необходимость разработки более сложных бенчмарков, способных выявлять когнитивное увядание и другие скрытые проблемы в поведении моделей.

Исследование подчёркивает важность более глубокого понимания того, как ИИ-модели влияют на пользователей в реальных условиях. Это особенно актуально для приложений, связанных с поддержкой психического здоровья, где ошибки могут иметь серьёзные последствия.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Исследования и наука Проблема «правильных ответов по неверным причинам» в рассуждениях ИИ Исследователи изучают феномен, при котором современные LLM выдают верные результаты, опираясь на ошибочные логические цепочки. Анализ показывает, что модели часто используют статистические закономерности и «короткие пути» вместо глубокого понимания задачи. Это ставит под сомнение надежность ИИ в критически важных областях, где важна обоснованность процесса принятия решений, а не только итоговый результат. arXiv · Исследования и наука Исследование: риски использования LLM в поиске причинно-следственных связей Новая научная работа анализирует эффективность использования больших языковых моделей для задач поиска причинно-следственных связей (causal discovery). Исследователи изучили подходы, при которых модели просят определять направления связей, предлагать структуру графов или использовать их выводы в качестве априорных ограничений для статистических алгоритмов. Основной вывод заключается в том, что текущие методы часто подменяют строгий анализ данных простыми текстовыми ассоциациями, заложенными в веса моделей. arXiv · Исследования и наука Исследование: как «предвзятость значимости» мешает LLM в здравом смысле Исследователи выявили критическую уязвимость современных больших языковых моделей, названную «предвзятостью значимости» (Salience Bias). В задачах на здравый смысл модели склонны чрезмерно полагаться на явные, но бесполезные детали во входных данных, такие как случайные числа или второстепенные условия. Это приводит к игнорированию контекста и логическим ошибкам, даже если модель способна решать сложные задачи. arXiv · Оценка и бенчмарки Иллюзия устойчивости LLM: как нерелевантный контекст скрывает ошибки моделей Исследователи обнаружили, что современные LLM демонстрируют обманчивую стабильность при работе с нерелевантным контекстом. Хотя общая точность ответов на бенчмарках почти не меняется, детальный анализ показывает массовые «перевороты» предсказаний: модель меняет правильные ответы на неверные и наоборот. Это создает ложное ощущение надежности систем, скрывая их уязвимость к шуму в реальных рабочих сценариях. arXiv · Оценка и бенчмарки Исследование влияния формы выражения убеждений на ответы LLM Исследователи проанализировали, как лингвистические нюансы в запросах пользователей влияют на способность LLM различать факты и субъективные убеждения. Работа показывает, что использование пресуппозиций, маркеров уверенности и различных тональностей в сообщениях существенно меняет поведение моделей, заставляя их либо принимать контекст пользователя как истину, либо опираться на собственные внутренние знания. arXiv · Исследования и наука Когнитивные искажения LLM при поиске уязвимостей в коде Исследователи проанализировали, как когнитивные эвристики влияют на способность больших языковых моделей находить уязвимости в программном коде. Выяснилось, что нейросети подвержены тем же систематическим ошибкам мышления, что и люди-разработчики. Это ограничивает надежность автоматизированных систем безопасности, так как модели склонны принимать предвзятые решения при оценке потенциально опасных фрагментов кода, что требует пересмотра подходов к их обучению и тестированию. Hacker News · Исследования и наука Мелани Митчелл о непредсказуемости современных LLM Профессор Мелани Митчелл в своей статье для Yale Review анализирует феномен «зубчатого интеллекта» (jagged intelligence) у современных языковых моделей. Автор отмечает, что ИИ демонстрирует крайне неравномерные способности: системы могут блестяще справляться со сложными логическими задачами или написанием кода, но при этом совершать элементарные ошибки в простых вопросах, требующих здравого смысла или понимания физического мира. arXiv · Оценка и бенчмарки Исследование гибкости мышления LLM через парадигму «загадок-обманок» Исследователи представили новый метод оценки когнитивных способностей больших языковых моделей под названием «riddle riddle». В отличие от стандартных тестов, этот подход проверяет способность ИИ гибко адаптировать стратегии рассуждения при столкновении с нестандартными задачами. Эксперименты показывают, что модели часто полагаются на заученные паттерны, а не на глубокое понимание логики, что ставит под вопрос их способность к адаптивному мышлению. Hacker News · Исследования и наука Исследование: LLM могут имитировать логику без понимания концепций Новое исследование ставит под сомнение способность больших языковых моделей к истинному пониманию абстрактных концепций. Анализ показывает, что модели часто полагаются на статистические закономерности и заученные ассоциации, а не на построение внутренних логических моделей. Это означает, что при изменении контекста или условий задачи производительность систем может резко падать, несмотря на внешнюю убедительность ответов. arXiv · Исследования и наука Исследование: как языковые модели теряют логику при замене переменных Учёные из MIT и других институтов обнаружили любопытный феномен в языковых моделях: при замене переменных в задачах на каузальное рассуждение на нейтральные маркеры (например, «X» вместо «Джон») модели начинают давать разные ответы, хотя структура вопроса и правильный ответ остаются неизменными. Это указывает на то, что модели либо теряют часть информации при такой замене, либо не могут корректно интерпретировать сохранённую информацию.

← Все материалы