arXiv · 30.06.2026 ·Оценка и бенчмарки

Исследование способности LLM формировать убеждения других агентов через действия

Исследователи представили новый подход к оценке «теории разума» (ToM) у больших языковых моделей, смещая фокус с пассивных диалогов на активное планирование. В работе анализируется способность ИИ-агентов целенаправленно изменять убеждения других участников среды через совершение конкретных действий. Это критически важный шаг для понимания того, как автономные системы могут манипулировать состоянием среды для достижения целей.

Традиционные тесты на ToM ограничиваются вопросно-ответными форматами, которые не отражают реальную динамику агентных сред. Новый метод тестирования требует от модели не просто понимать ментальное состояние другого субъекта, но и выстраивать последовательность шагов, которые приведут к формированию у него нужного ложного или истинного убеждения. Это переводит дискуссию о способностях ИИ из плоскости лингвистики в плоскость стратегического планирования и социального взаимодействия.

Авторы подчеркивают, что по мере усложнения агентных систем, способность предсказывать реакцию других агентов на физические изменения в окружении становится ключевым навыком. Исследование демонстрирует, что современные модели показывают неоднозначные результаты в задачах, требующих долгосрочного планирования для изменения чужих ментальных состояний, что указывает на пробелы в текущих архитектурах обучения.

Ключевые факты

Исследование фокусируется на способности моделей индуцировать убеждения через действия, а не через вербальное убеждение.
Предложен новый фреймворк для оценки агентных способностей в средах, где требуется учет ментальных моделей других участников.
Выявлено, что текущие LLM испытывают трудности с планированием цепочек действий, направленных на изменение чужого восприятия реальности.
Работа подчеркивает необходимость перехода от статических бенчмарков к динамическим агентным тестам для оценки безопасности и эффективности ИИ.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Оценка и бенчмарки Исследование гибкости мышления LLM через парадигму «загадок-обманок» Исследователи представили новый метод оценки когнитивных способностей больших языковых моделей под названием «riddle riddle». В отличие от стандартных тестов, этот подход проверяет способность ИИ гибко адаптировать стратегии рассуждения при столкновении с нестандартными задачами. Эксперименты показывают, что модели часто полагаются на заученные паттерны, а не на глубокое понимание логики, что ставит под вопрос их способность к адаптивному мышлению. Hacker News · Исследования и наука Исследование: могут ли LLM-агенты строить модели мира Учёные изучают способность языковых моделей (LLM) строить модели мира через агентное поведение. В новом исследовании, опубликованном на arXiv, рассматривается, как агентные автоматические системы могут обучаться и адаптироваться в динамических средах. Hacker News · Безопасность и алайнмент Исследование: ИИ-агенты подвержены влиянию через «подталкивание» Новое исследование, опубликованное в PNAS, демонстрирует, что современные ИИ-агенты крайне чувствительны к методам «подталкивания» (nudging), аналогичным тем, что используются в поведенческой экономике для людей. Даже незначительные изменения в формулировках промптов или контексте задачи могут существенно менять принимаемые агентами решения, что ставит под вопрос их предсказуемость и надежность в автономных бизнес-процессах. arXiv · Исследования и наука Исследование: в диалогах LLM между собой возникают устойчивые состояния-аттракторы Исследователи проанализировали динамику взаимодействия больших языковых моделей в многоходовых диалогах. Выяснилось, что в ходе дискуссий модели склонны переходить в «состояния-аттракторы» — устойчивые паттерны поведения, которые не зависят от изначальной темы обсуждения. Это открытие ставит под сомнение предсказуемость долгосрочных агентных взаимодействий и указывает на наличие скрытых ограничений в архитектуре современных LLM. Hacker News · Исследования и наука Мелани Митчелл о непредсказуемости современных LLM Профессор Мелани Митчелл в своей статье для Yale Review анализирует феномен «зубчатого интеллекта» (jagged intelligence) у современных языковых моделей. Автор отмечает, что ИИ демонстрирует крайне неравномерные способности: системы могут блестяще справляться со сложными логическими задачами или написанием кода, но при этом совершать элементарные ошибки в простых вопросах, требующих здравого смысла или понимания физического мира. Hacker News · Оценка и бенчмарки Настольная игра как способ оценки логических способностей ИИ-агентов Исследователи предложили новый метод тестирования LLM, используя механику детективной настольной игры «Шерлок Холмс: Консультирующий детектив». В отличие от стандартных тестов на эрудицию, этот подход требует от модели не просто извлечения фактов, а ведения полноценного расследования: анализа противоречивых свидетельских показаний, сопоставления улик и построения логических цепочек в условиях ограниченных ресурсов. arXiv · Исследования и наука MIThinker: оптимизация рассуждений LLM для мотивационного консультирования Исследователи представили MIThinker — специализированный фреймворк для улучшения работы ИИ-агентов в сфере мотивационного консультирования. В отличие от стандартных моделей, MIThinker использует механизм «мыслительного процесса» (reasoning), который принудительно выравнивает внутренние рассуждения модели с техниками мотивационного интервьюирования. Это позволяет агентам генерировать более эмпатичные и терапевтически точные ответы, соответствующие профессиональным стандартам психологической поддержки. arXiv · Память и RAG Исследование: ИИ и люди используют схожие механизмы мышления Новое исследование, опубликованное на arXiv, бросает вызов распространённому мнению о том, что люди и ИИ используют принципиально разные механизмы мышления. Авторы сравнили способность людей и больших языковых моделей (LLM) к обобщению и логическому выводу. Они обнаружили, что и те, и другие часто полагаются на сопоставление шаблонов, а не на строгие абстрактные модели мира. The Decoder · Оценка и бенчмарки Исследователи создали CEO-Bench для проверки способности ИИ-агентов управлять бизнесом Исследователи из Принстонского университета представили бенчмарк CEO-Bench, имитирующий работу программной компании в течение 500 игровых дней. Результаты показали, что большинство современных LLM не справляются с долгосрочным планированием и финансовым менеджментом, быстро расходуя стартовый капитал. Примечательно, что простая эвристика на базе жестких правил оказалась эффективнее большинства продвинутых языковых моделей в условиях симуляции. arXiv · Исследования и наука Исследование: как ИИ-модели теряют когнитивные способности в длительных диалогах Новое исследование на arXiv обращает внимание на проблему когнитивного увядания (cognitive atrophy) в поведении больших языковых моделей (LLM). Авторы отмечают, что существующие бенчмарки оценивают знания, безопасность и качество ответов, но не учитывают, как модели ведут себя в длительных, эмоционально насыщенных диалогах.

← Все материалы