arXiv · 16.06.2026 ·Исследования и наука

ChLogic: тестирование логического мышления моделей на китайском

Исследователи представили новый бенчмарк ChLogic, который оценивает способность языковых моделей сохранять логическое мышление при работе с китайскими выражениями. В отличие от английских тестов, ChLogic проверяет, как модели справляются с логическими структурами, представленными на китайском языке.

Стандартные бенчмарки показывают, что модели хорошо справляются с логическими задачами на английском. Однако остаётся неясным, сохраняется ли этот уровень при работе с другими языками. ChLogic включает задачи, где одна и та же логическая структура представлена на английском и китайском, что позволяет оценить устойчивость моделей.

Авторы отмечают, что китайский язык имеет уникальные особенности, такие как отсутствие пробелов между словами и сложные грамматические конструкции. Это делает ChLogic важным инструментом для оценки способности моделей адаптироваться к различным языковым особенностям.

Результаты исследования показывают, что текущие модели демонстрируют разный уровень производительности на китайском и английском. Это указывает на необходимость дальнейших исследований и улучшений в области многозначного логического мышления.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Оценка и бенчмарки Новый подход к оценке логического мышления LLM через исчисление предикатов Исследователи представили QMFOL — новый фреймворк для оценки дедуктивных способностей больших языковых моделей. В отличие от существующих тестов, которые часто полагаются на статические наборы данных, QMFOL использует генерацию тестовых случаев на основе квантифицируемой монадической логики первого порядка. Это позволяет исследователям точно контролировать уровень логической сложности задач и обеспечивать баланс между семантическим разнообразием и строгостью логических выводов. arXiv · Оценка и бенчмарки Исследование гибкости мышления LLM через парадигму «загадок-обманок» Исследователи представили новый метод оценки когнитивных способностей больших языковых моделей под названием «riddle riddle». В отличие от стандартных тестов, этот подход проверяет способность ИИ гибко адаптировать стратегии рассуждения при столкновении с нестандартными задачами. Эксперименты показывают, что модели часто полагаются на заученные паттерны, а не на глубокое понимание логики, что ставит под вопрос их способность к адаптивному мышлению. arXiv · Оценка и бенчмарки Complexity Ceiling Benchmark: как глубина рассуждений влияет на точность LLM Исследователи представили Complexity Ceiling Benchmark (CCB) — новый инструмент для оценки способности языковых моделей к последовательным рассуждениям. В отличие от стандартных тестов, CCB фиксирует семантическое содержание задачи и варьирует только глубину логической цепочки от 5 до 50 шагов. Это позволяет точно определить «потолок сложности», при достижении которого качество ответов моделей начинает стремительно деградировать. arXiv · Оценка и бенчмарки COCOLogic-V2: новый бенчмарк для проверки логических рассуждений ИИ Исследователи представили COCOLogic-V2 — специализированный набор данных для оценки способности моделей к визуальному индуктивному мышлению на реальных изображениях. В отличие от существующих тестов, сфокусированных на простых задачах, этот бенчмарк использует сложные логические противоречия и «трудные отрицательные» примеры, позволяя глубже анализировать интерпретируемость моделей, таких как CBM и системы программного синтеза. Hacker News · Оценка и бенчмарки Новый бенчмарк Baba Is Solved проверяет способности LLM к логическому мышлению Исследователи представили бенчмарк Baba Is Solved, основанный на правилах логической игры Baba Is You. Тест оценивает способность моделей к абстрактному мышлению и планированию в условиях динамически меняющихся правил. Результаты показывают, что даже передовые LLM сталкиваются с серьезными трудностями при решении задач, требующих глубокого понимания логических связей и долгосрочного планирования действий. Hacker News · Оценка и бенчмарки Тестирование LLM в логической игре Baba Is You Исследователи провели сравнительный анализ способности современных языковых моделей решать сложные логические задачи на примере игры Baba Is You. В тесте участвовали Kimi K3, Opus 5, Grok 4.5 и Gemini 3.6 Flash. Эксперимент показал, как модели справляются с нестандартными правилами и пространственным мышлением, где требуется глубокое понимание контекста и планирование действий для достижения цели. Hacker News · Оценка и бенчмарки Запущен IOL-AI 2026: бенчмарк для проверки способностей LLM к лингвистическому анализу Организаторы Международной лингвистической олимпиады представили IOL-AI 2026 — специализированный бенчмарк для оценки способностей языковых моделей к решению сложных лингвистических задач. В отличие от стандартных тестов на знание грамматики, этот набор данных требует от ИИ навыков логического вывода, дедукции и способности выявлять закономерности в незнакомых языковых системах, имитируя реальные олимпиадные задания. arXiv · Оценка и бенчмарки Новый бенчмарк для оценки навыков MLLM в научной визуализации Исследователи представили специализированный бенчмарк для оценки способности мультимодальных больших языковых моделей (MLLM) интерпретировать научную визуализацию. В отличие от существующих тестов, сфокусированных на простых графиках, этот набор данных проверяет понимание сложных научных визуальных представлений. Тестирование шести актуальных моделей показало их текущие ограничения в анализе специализированных данных, критически важных для научной работы. arXiv · Оценка и бенчмарки Новый бенчмарк для оценки работы языковых моделей в диагностических диалогах Исследователи представили DiagFlowBench — новый бенчмарк для оценки способности языковых моделей обрабатывать запросы, выходящие за рамки стандартных процедур в диагностических диалогах. Языковые модели всё чаще используются в системах поддержки технического обслуживания, где важно избежать генерации некорректной информации (hallucination). Для этого модели привязывают к официальной документации, чтобы они следовали только утверждённым шагам. Hacker News · Модели и релизы Выход GLM-5.2: новая китайская модель для программирования Китайская компания Zhipu AI представила GLM-5.2 — новую версию большой языковой модели, ориентированную на решение задач по написанию и отладке программного кода. Разработчики сфокусировались на улучшении логических способностей модели, что позволило ей демонстрировать результаты, сопоставимые с ведущими западными аналогами в специализированных бенчмарках для разработчиков. Модель оптимизирована для интеграции в среды разработки и автоматизации написания сложных алгоритмических конструкций.

← Все материалы