arXiv · 17.06.2026 ·Машинное обучение

OneCanvas: новый подход к 3D-восприятию в мультимодальных моделях

Исследователи представили метод OneCanvas, упрощающий процесс понимания трехмерных сцен для мультимодальных моделей (VLM). Традиционные подходы к этой задаче часто требуют использования специализированных геометрических энкодеров или значительных вычислительных ресурсов для обучения пространственному мышлению. Новый метод предлагает альтернативный путь, объединяя признаки из различных ракурсов изображения на едином панорамном полотне с равнопромежуточной проекцией.

Алгоритм работает путем проецирования отдельных фрагментов изображения в трехмерные мировые координаты. Для этого используются данные о глубине сцены и параметрах положения камеры. Собранные таким образом признаки формируют целостное панорамное представление, которое позволяет модели эффективнее анализировать пространственные связи без необходимости в сложных архитектурных надстройках. Такой подход значительно снижает требования к сложности модели при сохранении высокой точности интерпретации 3D-пространства.

Разработка направлена на оптимизацию работы систем компьютерного зрения, которые сталкиваются с трудностями при обработке данных из нескольких источников. Использование единого панорамного холста упрощает задачу интеграции визуальной информации, делая процесс обучения более эффективным. Это решение открывает возможности для создания более компактных и быстрых моделей, способных работать с пространственными данными в режиме реального времени.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука VLM-IE3D: новый подход к пространственному мышлению мультимодальных моделей Исследователи представили VLM-IE3D — архитектуру, которая наделяет мультимодальные модели (VLM) способностью к глубокому пониманию 3D-пространства. В отличие от стандартных моделей, работающих с 2D-изображениями, этот фреймворк интегрирует явные и неявные геометрические представления, что позволяет ИИ точнее интерпретировать пространственные отношения объектов, глубину и структуру сцены, значительно повышая качество выполнения задач, требующих 3D-рассуждений. arXiv · Исследования и наука SAM3D-Guided: новый метод улучшения 3D-восприятия для робототехнических VLA-моделей Исследователи представили фреймворк SAM3D-Guided, направленный на устранение дефицита пространственного понимания у Vision-Language-Action (VLA) моделей. В отличие от стандартных решений, опирающихся на 2D-бэкенды, новый подход интегрирует объектно-ориентированные 3D-представления. Это позволяет роботам точнее взаимодействовать с объектами в условиях окклюзии, изменения масштаба и вариативности поз, значительно повышая качество манипуляций в сложных визуальных сценах. GitHub · Машинное обучение Lingbot-vision: новый подход к пространственному восприятию через самообучение Проект Lingbot-vision представляет собой реализацию методов самообучения (self-supervised learning) для задач пространственного восприятия. Исследование фокусируется на том, как модели могут эффективно извлекать геометрические и пространственные признаки из визуальных данных без необходимости в размеченных наборах данных, что является критически важным этапом для развития автономных систем и робототехники. arXiv · Исследования и наука UNIEGO: новый подход к обучению представлений в эгоцентрических видео Исследователи представили метод UNIEGO, направленный на решение проблемы ограниченного обзора в эгоцентрических видео, снятых с носимых камер. Основная сложность таких данных заключается в узком угле обзора, единственной модальности и зависимости от конкретной модели, что не позволяет полноценно интерпретировать человеческие действия. Авторы работы предлагают использовать прокси-модели в качестве посредников для объединения знаний из различных источников. arXiv · Исследования и наука MonoVoc: эффективная 3D-реконструкция сцен с открытым словарем Исследователи представили MonoVoc — метод для создания 3D-сцен с поддержкой семантического поиска по естественному языку на основе монокулярных данных. Решение разделяет геометрические и семантические признаки, что позволяет значительно снизить требования к памяти и вычислительным ресурсам при работе с 3D-гауссианами, устраняя необходимость в сложных многоракурсных съемках и длительной оптимизации под конкретные сцены. arXiv · Исследования и наука Метод MIRROR улучшает визуальные рассуждения мультимодальных моделей Исследователи представили метод MIRROR, направленный на устранение разрыва в логических способностях мультимодальных моделей (VLM). В отличие от LLM, VLM часто демонстрируют нестабильные результаты при работе с визуальными данными, даже если задача имеет текстовый эквивалент. Новый подход обучает модели сопоставлять и интегрировать информацию из различных представлений — текста, диаграмм и их комбинаций — для повышения точности рассуждений. arXiv · Исследования и наука G3VLA: новый подход к пространственному восприятию в робототехнике Исследователи представили архитектуру G3VLA, которая внедряет геометрические индуктивные смещения в модели Vision-Language-Action (VLA). В отличие от стандартных моделей, привязанных к 2D-координатам изображений, G3VLA использует калиброванную геометрию камер робота. Это позволяет системе эффективно объединять данные с нескольких камер, обеспечивая точное понимание 3D-пространства, необходимое для выполнения сложных манипуляционных задач в реальных условиях. arXiv · Машинное обучение SceneBind: новая модель для объединения семантики и 3D-пространства Исследователи представили SceneBind — мультимодальную модель, которая связывает визуальные, аудио- и текстовые данные с точным пониманием 3D-пространства. В отличие от существующих решений, фокусирующихся только на распознавании объектов, SceneBind создает единое семантико-пространственное представление сцены, позволяя ИИ не только идентифицировать объекты, но и точно определять их расположение и взаимосвязи в трехмерном окружении. arXiv · Исследования и наука Новый фреймворк для геопозиционирования объектов по кросс-видовым изображениям Исследователи представили единый одностадийный фреймворк для геопозиционирования объектов, который преодолевает ограничения традиционного 2D-сопоставления изображений. Система эффективно связывает данные с наземных камер или дронов с геопривязанными спутниковыми снимками, учитывая геометрические параметры сцены. Это решение позволяет точнее определять координаты объектов в условиях нехватки размеченных данных и различий в углах обзора камер. arXiv · Оценка и бенчмарки TriViewBench: новый бенчмарк для оценки пространственного мышления мультимодальных моделей Исследователи представили TriViewBench — новый бенчмарк для оценки способности мультимодальных моделей (MLLM) к пространственному мышлению. В отличие от стандартных тестов, TriViewBench использует синтетические 3D-сцены с контролируемыми параметрами сложности, такими как количество объектов и степень их перекрытия. Это позволяет точно измерить, как именно архитектура модели справляется с интерпретацией сложных визуальных структур с разных ракурсов.

← Все материалы