Исследователи представили новый метод оценки когнитивных способностей больших языковых моделей под названием «riddle riddle». В отличие от стандартных тестов, этот подход проверяет способность ИИ гибко адаптировать стратегии рассуждения при столкновении с нестандартными задачами. Эксперименты показывают, что модели часто полагаются на заученные паттерны, а не на глубокое понимание логики, что ставит под вопрос их способность к адаптивному мышлению.

В рамках исследования были разработаны специальные лингвистические конструкции, которые внешне напоминают классические загадки, но требуют изменения привычного алгоритма решения. Традиционные бенчмарки часто содержат похожие примеры в обучающих выборках, что позволяет моделям успешно «угадывать» ответ, опираясь на статистические закономерности. Новый подход исключает возможность простого сопоставления с известными данными, заставляя систему демонстрировать реальную гибкость рассуждений.

Результаты тестов подчеркивают разрыв между способностью моделей демонстрировать высокую точность в предсказуемых условиях и их ограниченностью в ситуациях, требующих пересмотра стратегии «на лету». Это исследование является важным шагом в понимании природы ИИ-интеллекта и помогает отделить имитацию логики от способности к подлинному аналитическому мышлению, которое свойственно человеку при решении новых, нетипичных задач.

Ключевые факты

  • Парадигма «riddle riddle» разработана для выявления различий между статистическим распознаванием паттернов и адаптивным рассуждением.
  • Исследование демонстрирует, что текущие LLM часто терпят неудачу при изменении контекста задачи, даже если базовая логика остается прежней.
  • Тестирование показало, что высокая точность моделей в стандартных тестах не всегда коррелирует с их способностью к гибкому решению проблем.
  • Методология направлена на устранение эффекта «загрязнения данных», при котором модели используют ответы, заученные в процессе обучения.