Исследователи представили новый подход к оценке «теории разума» (ToM) у больших языковых моделей, смещая фокус с пассивных диалогов на активное планирование. В работе анализируется способность ИИ-агентов целенаправленно изменять убеждения других участников среды через совершение конкретных действий. Это критически важный шаг для понимания того, как автономные системы могут манипулировать состоянием среды для достижения целей.
Традиционные тесты на ToM ограничиваются вопросно-ответными форматами, которые не отражают реальную динамику агентных сред. Новый метод тестирования требует от модели не просто понимать ментальное состояние другого субъекта, но и выстраивать последовательность шагов, которые приведут к формированию у него нужного ложного или истинного убеждения. Это переводит дискуссию о способностях ИИ из плоскости лингвистики в плоскость стратегического планирования и социального взаимодействия.
Авторы подчеркивают, что по мере усложнения агентных систем, способность предсказывать реакцию других агентов на физические изменения в окружении становится ключевым навыком. Исследование демонстрирует, что современные модели показывают неоднозначные результаты в задачах, требующих долгосрочного планирования для изменения чужих ментальных состояний, что указывает на пробелы в текущих архитектурах обучения.
Ключевые факты
- Исследование фокусируется на способности моделей индуцировать убеждения через действия, а не через вербальное убеждение.
- Предложен новый фреймворк для оценки агентных способностей в средах, где требуется учет ментальных моделей других участников.
- Выявлено, что текущие LLM испытывают трудности с планированием цепочек действий, направленных на изменение чужого восприятия реальности.
- Работа подчеркивает необходимость перехода от статических бенчмарков к динамическим агентным тестам для оценки безопасности и эффективности ИИ.