Учёные из MIT и других институтов обнаружили любопытный феномен в языковых моделях: при замене переменных в задачах на каузальное рассуждение на нейтральные маркеры (например, «X» вместо «Джон») модели начинают давать разные ответы, хотя структура вопроса и правильный ответ остаются неизменными. Это указывает на то, что модели либо теряют часть информации при такой замене, либо не могут корректно интерпретировать сохранённую информацию.

Исследование, опубликованное на arXiv, показывает, что даже инструкционно-настроенные модели (например, GPT-4) уязвимы к такому эффекту. Авторы предлагают гипотезу, что это связано с «представленческим несоответствием» — моделям сложно выделять причинно-следственные связи, если переменные заменены на абстрактные маркеры.

Для разработчиков ИИ-агентов это важно, потому что многие задачи требуют каузального рассуждения. Например, если агент должен анализировать цепочки событий или принимать решения на основе причинно-следственных связей, замена переменных в запросах может привести к некорректным выводам. Это особенно актуально для агентов, работающих с абстрактными или формализованными данными.

Авторы предлагают несколько направлений для дальнейших исследований, включая улучшение механизмов интерпретации моделей и разработку методов, которые минимизируют потерю информации при замене переменных. Это может быть полезно для создания более надёжных и логически последовательных ИИ-агентов.