Исследователи представили метод OneCanvas, упрощающий процесс понимания трехмерных сцен для мультимодальных моделей (VLM). Традиционные подходы к этой задаче часто требуют использования специализированных геометрических энкодеров или значительных вычислительных ресурсов для обучения пространственному мышлению. Новый метод предлагает альтернативный путь, объединяя признаки из различных ракурсов изображения на едином панорамном полотне с равнопромежуточной проекцией.

Алгоритм работает путем проецирования отдельных фрагментов изображения в трехмерные мировые координаты. Для этого используются данные о глубине сцены и параметрах положения камеры. Собранные таким образом признаки формируют целостное панорамное представление, которое позволяет модели эффективнее анализировать пространственные связи без необходимости в сложных архитектурных надстройках. Такой подход значительно снижает требования к сложности модели при сохранении высокой точности интерпретации 3D-пространства.

Разработка направлена на оптимизацию работы систем компьютерного зрения, которые сталкиваются с трудностями при обработке данных из нескольких источников. Использование единого панорамного холста упрощает задачу интеграции визуальной информации, делая процесс обучения более эффективным. Это решение открывает возможности для создания более компактных и быстрых моделей, способных работать с пространственными данными в режиме реального времени.