arXiv · 14.06.2026 ·Исследования и наука

Исследование: как языковые модели теряют логику при замене переменных

Учёные из MIT и других институтов обнаружили любопытный феномен в языковых моделях: при замене переменных в задачах на каузальное рассуждение на нейтральные маркеры (например, «X» вместо «Джон») модели начинают давать разные ответы, хотя структура вопроса и правильный ответ остаются неизменными. Это указывает на то, что модели либо теряют часть информации при такой замене, либо не могут корректно интерпретировать сохранённую информацию.

Исследование, опубликованное на arXiv, показывает, что даже инструкционно-настроенные модели (например, GPT-4) уязвимы к такому эффекту. Авторы предлагают гипотезу, что это связано с «представленческим несоответствием» — моделям сложно выделять причинно-следственные связи, если переменные заменены на абстрактные маркеры.

Для разработчиков ИИ-агентов это важно, потому что многие задачи требуют каузального рассуждения. Например, если агент должен анализировать цепочки событий или принимать решения на основе причинно-следственных связей, замена переменных в запросах может привести к некорректным выводам. Это особенно актуально для агентов, работающих с абстрактными или формализованными данными.

Авторы предлагают несколько направлений для дальнейших исследований, включая улучшение механизмов интерпретации моделей и разработку методов, которые минимизируют потерю информации при замене переменных. Это может быть полезно для создания более надёжных и логически последовательных ИИ-агентов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука Как цепочки рассуждений влияют на ответы ИИ-моделей Исследователи изучили, как цепочки рассуждений (Chain-of-Thought, CoT) влияют на точность ответов языковых моделей. Они выяснили, что не все шаги в цепочке одинаково важны для итогового результата. Для оценки значимости каждого шага использовался метод раннего выхода (early exit), который позволяет определить, насколько конкретный шаг влияет на конечный ответ. Hacker News · Исследования и наука Исследование: LLM могут имитировать логику без понимания концепций Новое исследование ставит под сомнение способность больших языковых моделей к истинному пониманию абстрактных концепций. Анализ показывает, что модели часто полагаются на статистические закономерности и заученные ассоциации, а не на построение внутренних логических моделей. Это означает, что при изменении контекста или условий задачи производительность систем может резко падать, несмотря на внешнюю убедительность ответов. arXiv · Исследования и наука Исследование: LLM используют «пустые» токены для скрытых вычислений Исследователи обнаружили, что современные языковые модели способны выполнять сложные многошаговые рассуждения, используя «пустые» токены, такие как многоточия или последовательности чисел. В таких случаях модель выдает правильный ответ без видимой цепочки рассуждений (CoT) в тексте. Это создает серьезную проблему для контроля поведения ИИ, так как внешне токены не содержат информации о логике процесса. Hacker News · Оценка и бенчмарки Производительность топовых LLM падает вдвое при усложнении цепочки рассуждений Исследование показало критическое снижение эффективности современных больших языковых моделей при решении задач, требующих последовательных рассуждений в разных предметных областях. Если в простых сценариях точность моделей достигает 83%, то при необходимости связывать знания из нескольких доменов показатель падает до 43%. Это подчеркивает фундаментальные ограничения текущих архитектур в задачах многошагового логического вывода. arXiv · Исследования и наука Исследование: как ИИ-модели теряют когнитивные способности в длительных диалогах Новое исследование на arXiv обращает внимание на проблему когнитивного увядания (cognitive atrophy) в поведении больших языковых моделей (LLM). Авторы отмечают, что существующие бенчмарки оценивают знания, безопасность и качество ответов, но не учитывают, как модели ведут себя в длительных, эмоционально насыщенных диалогах. Hacker News · Исследования и наука Проблема обратной логики в обучении больших языковых моделей Исследователи выявили фундаментальную особенность в обучении современных больших языковых моделей, получившую название «проклятие обращения». Суть проблемы заключается в том, что модели, обученные на утверждениях вида «А является Б», не способны автоматически выводить обратное утверждение «Б является А». Например, если модель успешно усваивает факт, что «Том Круз — сын Мэри Ли Пфайффер», она зачастую не может ответить на вопрос, кто является матерью Тома Круза, так как эта связь не выстраивается в обратном направлении в процессе обучения. Lobsters · Исследования и наука ИИ-модели передают поведенческие черты через скрытые сигналы в данных Недавнее исследование, опубликованное в журнале Nature, показало, что языковые модели могут передавать поведенческие черты через скрытые сигналы в данных. Ученые обнаружили, что модели, обученные на данных, содержащих определенные поведенческие паттерны, могут воспроизводить эти паттерны даже в новых, ранее не встречавшихся контекстах. arXiv · Исследования и наука Исследование: как «предвзятость значимости» мешает LLM в здравом смысле Исследователи выявили критическую уязвимость современных больших языковых моделей, названную «предвзятостью значимости» (Salience Bias). В задачах на здравый смысл модели склонны чрезмерно полагаться на явные, но бесполезные детали во входных данных, такие как случайные числа или второстепенные условия. Это приводит к игнорированию контекста и логическим ошибкам, даже если модель способна решать сложные задачи. Hacker News · Исследования и наука Исследование: языковые модели и человеческий мозг используют схожие концептуальные пространства Новое исследование, опубликованное на arXiv, показывает, что языковые модели (LLMs) и человеческий мозг используют схожие концептуальные пространства для обработки информации, даже если они работают на разных языках. Это открытие может иметь значительные последствия для разработки ИИ-агентов, так как оно подтверждает, что языковые модели способны моделировать когнитивные процессы, аналогичные человеческим. arXiv · Исследования и наука Феномен «естественного разгроккинга»: почему модели забывают правила во время обучения Исследователи обнаружили эффект «естественного разгроккинга» (natural ungrokking), при котором языковые модели в процессе обучения сначала усваивают определенные лингвистические правила, а затем внезапно «забывают» их, несмотря на наличие данных в обучающей выборке. Этот процесс асимметричного контроля над тем, какие закономерности сохраняются в весах модели, ставит под сомнение предсказуемость формирования знаний в ходе претренинга.

← Все материалы