arXiv · 24.06.2026 ·Оценка и бенчмарки

TriViewBench: новый бенчмарк для оценки пространственного мышления мультимодальных моделей

Исследователи представили TriViewBench — новый бенчмарк для оценки способности мультимодальных моделей (MLLM) к пространственному мышлению. В отличие от стандартных тестов, TriViewBench использует синтетические 3D-сцены с контролируемыми параметрами сложности, такими как количество объектов и степень их перекрытия. Это позволяет точно измерить, как именно архитектура модели справляется с интерпретацией сложных визуальных структур с разных ракурсов.

Современные мультимодальные модели часто показывают высокие результаты на общих задачах визуального ответа на вопросы (VQA), однако их способность к глубокому структурному анализу остается недостаточно изученной. Авторы работы подчеркивают, что существующие наборы данных не позволяют масштабировать сложность задач систематически, что затрудняет понимание пределов возможностей нейросетей при работе с 3D-пространством.

Использование синтетических данных в TriViewBench дает возможность исследователям изолировать конкретные факторы, влияющие на качество предсказаний. Это помогает выявить, на каком этапе обработки визуальной информации модели начинают допускать ошибки: при распознавании отдельных объектов, при их сопоставлении между разными видами или при попытке восстановить целостную картину сцены в условиях окклюзии.

Ключевые факты

TriViewBench фокусируется на трехмерном визуальном мышлении через анализ сцен с трех различных ракурсов.
Параметризация сложности включает точное управление количеством объектов и степенью их взаимного перекрытия (окклюзии).
Бенчмарк разработан для выявления ограничений масштабируемости современных MLLM при выполнении задач пространственного рассуждения.
Методология основана на использовании синтетических 3D-сцен, что обеспечивает чистоту эксперимента и возможность контролируемого усложнения задач.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы