arXiv · 25.06.2026 ·Оценка и бенчмарки

Исследование гибкости мышления LLM через парадигму «загадок-обманок»

Исследователи представили новый метод оценки когнитивных способностей больших языковых моделей под названием «riddle riddle». В отличие от стандартных тестов, этот подход проверяет способность ИИ гибко адаптировать стратегии рассуждения при столкновении с нестандартными задачами. Эксперименты показывают, что модели часто полагаются на заученные паттерны, а не на глубокое понимание логики, что ставит под вопрос их способность к адаптивному мышлению.

В рамках исследования были разработаны специальные лингвистические конструкции, которые внешне напоминают классические загадки, но требуют изменения привычного алгоритма решения. Традиционные бенчмарки часто содержат похожие примеры в обучающих выборках, что позволяет моделям успешно «угадывать» ответ, опираясь на статистические закономерности. Новый подход исключает возможность простого сопоставления с известными данными, заставляя систему демонстрировать реальную гибкость рассуждений.

Результаты тестов подчеркивают разрыв между способностью моделей демонстрировать высокую точность в предсказуемых условиях и их ограниченностью в ситуациях, требующих пересмотра стратегии «на лету». Это исследование является важным шагом в понимании природы ИИ-интеллекта и помогает отделить имитацию логики от способности к подлинному аналитическому мышлению, которое свойственно человеку при решении новых, нетипичных задач.

Ключевые факты

Парадигма «riddle riddle» разработана для выявления различий между статистическим распознаванием паттернов и адаптивным рассуждением.
Исследование демонстрирует, что текущие LLM часто терпят неудачу при изменении контекста задачи, даже если базовая логика остается прежней.
Тестирование показало, что высокая точность моделей в стандартных тестах не всегда коррелирует с их способностью к гибкому решению проблем.
Методология направлена на устранение эффекта «загрязнения данных», при котором модели используют ответы, заученные в процессе обучения.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Исследования и наука Мелани Митчелл о непредсказуемости современных LLM Профессор Мелани Митчелл в своей статье для Yale Review анализирует феномен «зубчатого интеллекта» (jagged intelligence) у современных языковых моделей. Автор отмечает, что ИИ демонстрирует крайне неравномерные способности: системы могут блестяще справляться со сложными логическими задачами или написанием кода, но при этом совершать элементарные ошибки в простых вопросах, требующих здравого смысла или понимания физического мира. The latest research from Google · Исследования и наука Исследование Google: как цепочки рассуждений улучшают извлечение знаний из LLM Исследователи Google представили метод, который значительно повышает точность извлечения фактов из внутренней памяти больших языковых моделей. Вместо прямого запроса модель сначала генерирует цепочку рассуждений, что позволяет ей эффективнее активировать параметрические знания. Этот подход помогает преодолеть ограничения стандартных моделей при ответе на вопросы, требующие глубокого контекстного понимания или редких данных. Hacker News · Оценка и бенчмарки Настольная игра как способ оценки логических способностей ИИ-агентов Исследователи предложили новый метод тестирования LLM, используя механику детективной настольной игры «Шерлок Холмс: Консультирующий детектив». В отличие от стандартных тестов на эрудицию, этот подход требует от модели не просто извлечения фактов, а ведения полноценного расследования: анализа противоречивых свидетельских показаний, сопоставления улик и построения логических цепочек в условиях ограниченных ресурсов. arXiv · Оценка и бенчмарки Новый подход к оценке логического мышления LLM через исчисление предикатов Исследователи представили QMFOL — новый фреймворк для оценки дедуктивных способностей больших языковых моделей. В отличие от существующих тестов, которые часто полагаются на статические наборы данных, QMFOL использует генерацию тестовых случаев на основе квантифицируемой монадической логики первого порядка. Это позволяет исследователям точно контролировать уровень логической сложности задач и обеспечивать баланс между семантическим разнообразием и строгостью логических выводов. arXiv · Исследования и наука Исследование: как ИИ-модели теряют когнитивные способности в длительных диалогах Новое исследование на arXiv обращает внимание на проблему когнитивного увядания (cognitive atrophy) в поведении больших языковых моделей (LLM). Авторы отмечают, что существующие бенчмарки оценивают знания, безопасность и качество ответов, но не учитывают, как модели ведут себя в длительных, эмоционально насыщенных диалогах. arXiv · Машинное обучение Исследование: как устранить избыточное рассуждение в LLM Учёные изучили проблему избыточного рассуждения (overthinking) в языковых моделях, когда они продолжают генерировать ненужные шаги после нахождения правильного ответа. Это явление особенно заметно в задачах, требующих длинных цепочек рассуждений (chain-of-thought reasoning). arXiv · Память и RAG Исследование: ИИ и люди используют схожие механизмы мышления Новое исследование, опубликованное на arXiv, бросает вызов распространённому мнению о том, что люди и ИИ используют принципиально разные механизмы мышления. Авторы сравнили способность людей и больших языковых моделей (LLM) к обобщению и логическому выводу. Они обнаружили, что и те, и другие часто полагаются на сопоставление шаблонов, а не на строгие абстрактные модели мира. arXiv · Модели и релизы Новый метод обнаружения ошибок в цепочках рассуждений LLM Исследователи из MIT и Университета Карнеги-Меллона предложили новый подход к выявлению ошибок в цепочках рассуждений языковых моделей (LLM) без использования меток. Их метод, основанный на операдной теории, позволяет обнаруживать несоответствия в логических цепочках, которые модели строят при решении сложных задач. Hacker News · Исследования и наука Ограничения метода имитации проприетарных LLM Исследование показывает, что дообучение моделей с открытым исходным кодом на ответах проприетарных LLM (метод дистилляции) часто приводит лишь к поверхностной имитации стиля, а не к реальному росту интеллектуальных способностей. Авторы доказывают, что такие модели склонны копировать ошибки и галлюцинации «учителя», не приобретая глубинных навыков рассуждения, необходимых для решения сложных задач. arXiv · Исследования и наука LLM как ассоциативная память: новый взгляд на логические рассуждения Исследователи представили новую теоретическую модель, рассматривающую большие языковые модели не как простые авторегрессионные генераторы, а как высокоразмерные ассоциативные памяти. Авторы доказывают, что цепочки логических рассуждений соответствуют глубоким аттракторам в энергетическом ландшафте модели. Использование минимизации энергии по Гиббсу позволяет извлекать скрытые паттерны мышления, что открывает новые пути для повышения точности и надежности ИИ в сложных математических задачах.

← Все материалы