Исследователи представили TriViewBench — новый бенчмарк для оценки способности мультимодальных моделей (MLLM) к пространственному мышлению. В отличие от стандартных тестов, TriViewBench использует синтетические 3D-сцены с контролируемыми параметрами сложности, такими как количество объектов и степень их перекрытия. Это позволяет точно измерить, как именно архитектура модели справляется с интерпретацией сложных визуальных структур с разных ракурсов.
Современные мультимодальные модели часто показывают высокие результаты на общих задачах визуального ответа на вопросы (VQA), однако их способность к глубокому структурному анализу остается недостаточно изученной. Авторы работы подчеркивают, что существующие наборы данных не позволяют масштабировать сложность задач систематически, что затрудняет понимание пределов возможностей нейросетей при работе с 3D-пространством.
Использование синтетических данных в TriViewBench дает возможность исследователям изолировать конкретные факторы, влияющие на качество предсказаний. Это помогает выявить, на каком этапе обработки визуальной информации модели начинают допускать ошибки: при распознавании отдельных объектов, при их сопоставлении между разными видами или при попытке восстановить целостную картину сцены в условиях окклюзии.
Ключевые факты
- TriViewBench фокусируется на трехмерном визуальном мышлении через анализ сцен с трех различных ракурсов.
- Параметризация сложности включает точное управление количеством объектов и степенью их взаимного перекрытия (окклюзии).
- Бенчмарк разработан для выявления ограничений масштабируемости современных MLLM при выполнении задач пространственного рассуждения.
- Методология основана на использовании синтетических 3D-сцен, что обеспечивает чистоту эксперимента и возможность контролируемого усложнения задач.