Исследователи представили новый бенчмарк ChLogic, который оценивает способность языковых моделей сохранять логическое мышление при работе с китайскими выражениями. В отличие от английских тестов, ChLogic проверяет, как модели справляются с логическими структурами, представленными на китайском языке.
Стандартные бенчмарки показывают, что модели хорошо справляются с логическими задачами на английском. Однако остаётся неясным, сохраняется ли этот уровень при работе с другими языками. ChLogic включает задачи, где одна и та же логическая структура представлена на английском и китайском, что позволяет оценить устойчивость моделей.
Авторы отмечают, что китайский язык имеет уникальные особенности, такие как отсутствие пробелов между словами и сложные грамматические конструкции. Это делает ChLogic важным инструментом для оценки способности моделей адаптироваться к различным языковым особенностям.
Результаты исследования показывают, что текущие модели демонстрируют разный уровень производительности на китайском и английском. Это указывает на необходимость дальнейших исследований и улучшений в области многозначного логического мышления.