arXiv · 01.07.2026 ·Машинное обучение

World from Motion: генерация динамических 3D-сцен из монокулярного видео

Исследователи представили метод World from Motion, позволяющий создавать полноценные динамические 3D-сцены на основе обычного монокулярного видео. Технология использует генеративные видеомодели для восстановления геометрии, внешнего вида и траекторий движения объектов. Система автоматически исправляет артефакты рендеринга и заполняет пропущенные области, обеспечивая высокое качество визуализации при смене ракурса камеры в пространстве.

В основе подхода лежит использование 3D-гауссианов (3D Gaussian Splatting), которые дополняются генеративными алгоритмами для предсказания динамики сцены. Традиционные методы реконструкции часто сталкиваются с проблемами при обработке движущихся объектов или при нехватке данных о ракурсах. Новый метод решает эту задачу, обучая модель понимать пространственно-временные связи, что позволяет «дорисовывать» скрытые части объектов и корректно отображать их перемещение в 3D-пространстве.

Данная разработка значительно упрощает создание контента для виртуальной и дополненной реальности, так как исключает необходимость использования специализированных систем захвата движений или многокамерных установок. Метод эффективно работает с видеопотоком, извлекая из него плотные представления, которые можно свободно рендерить с любой точки обзора, сохраняя при этом физическую согласованность динамических элементов сцены.

Ключевые факты

Метод преобразует монокулярное видео в динамическую 3D-репрезентацию на базе гауссианов.
Алгоритм использует генеративные видеомодели для заполнения окклюзий и восстановления геометрии.
Система обеспечивает корректный рендеринг сцены при произвольном изменении траектории виртуальной камеры.
Технология позволяет исправлять артефакты, возникающие при первичной реконструкции из одного источника видео.
Подход ориентирован на создание интерактивных 3D-сред без необходимости использования сложного оборудования для захвата сцен.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука OrbitForge: генерация 3D-сцен на основе видеомоделей Исследователи представили OrbitForge — метод генерации 3D-сцен из текстовых описаний, использующий предобученные видеомодели в качестве основы. Система решает проблему пространственной несогласованности и ограниченного обзора, характерную для генерации видео, путем интеграции адаптера с технологией 3D Gaussian Splatting. Это позволяет создавать качественные и геометрически корректные 3D-объекты, сохраняя при этом высокую детализацию, свойственную современным генеративным видеомоделям. arXiv · Исследования и наука HAT-4D: метод реконструкции 4D-взаимодействий объектов из монокулярного видео Исследователи представили HAT-4D — новый метод для извлечения динамических 4D-взаимодействий между объектами из обычных монокулярных видеозаписей. Технология решает проблему сильных перекрытий и сложной динамики, с которыми не справляются существующие подходы. Это решение открывает путь к эффективному сбору данных для обучения воплощенного ИИ (Embodied AI) и визуально-языковых моделей действий (VLA) в реальных условиях. Hacker News · Исследования и наука InfiniteDiffusion: новый метод бесконечной генерации изображений Исследователи представили InfiniteDiffusion — архитектурный подход, позволяющий создавать визуальный контент бесконечного размера с помощью диффузионных моделей. Метод решает проблему ограничений фиксированного разрешения, обеспечивая плавную генерацию новых областей изображения без потери связности и артефактов на стыках, что открывает новые возможности для создания панорамных сцен и детализированных текстур в реальном времени. arXiv · Модели и релизы Представлена DreamForge-World 0.1: легковесная модель мира для интерактивных симуляций Исследователи представили DreamForge-World 0.1 Preview — фундаментальную модель мира, предназначенную для интерактивной симуляции в реальном времени. В отличие от крупномасштабных аналогов, система оптимизирована для работы на устройствах с ограниченными вычислительными ресурсами. Архитектура базируется на стеке LongLive 1 и модели Wan2.1-T2V-1.3B, дополненных механизмом обработки действий, заимствованным из игровых симуляторов. arXiv · Исследования и наука FLUX3D: новый метод генерации высокодетализированных 3D-сцен Исследователи представили FLUX3D — метод генерации 3D-сцен на основе Gaussian Splatting, решающий проблему потери визуальных деталей при переходе от 2D-изображений к 3D-объектам. Новая архитектура устраняет структурные ограничения существующих моделей, используя разреженное воксельное представление, которое лучше сохраняет высокочастотные характеристики и текстурную точность исходных данных, обеспечивая более качественную реконструкцию сложных объектов. Hugging Face - Blog · Исследования и наука MolmoMotion: новая модель для прогнозирования 3D-движений по текстовому описанию Институт искусственного интеллекта Аллена (AI2) представил MolmoMotion — специализированную модель, предназначенную для прогнозирования 3D-траекторий движения объектов на основе текстовых инструкций. Разработка опирается на архитектуру мультимодальных моделей Molmo, что позволяет системе эффективно интерпретировать сложные семантические описания действий и переносить их в физическое пространство. arXiv · Машинное обучение MoPe: новый метод для стабильного 3D-картографирования в динамических сценах Исследователи представили метод MoPe (Motion Permanence), решающий проблему нестабильности монокулярного Gaussian Splatting SLAM в динамических средах. В отличие от существующих подходов, которые воспринимают движущиеся объекты как кратковременные помехи, MoPe обеспечивает сохранение целостности карты при изменении сцены. Это позволяет роботам сохранять точность локализации и навигации, даже когда объекты в поле зрения перемещаются или временно скрываются. arXiv · Исследования и наука Новый фреймворк для геопозиционирования объектов по кросс-видовым изображениям Исследователи представили единый одностадийный фреймворк для геопозиционирования объектов, который преодолевает ограничения традиционного 2D-сопоставления изображений. Система эффективно связывает данные с наземных камер или дронов с геопривязанными спутниковыми снимками, учитывая геометрические параметры сцены. Это решение позволяет точнее определять координаты объектов в условиях нехватки размеченных данных и различий в углах обзора камер. Hugging Face - Blog · Инференс и железо Waypoint-1.5: генерация миров на обычных GPU Hugging Face представила обновлённую версию Waypoint-1.5 — модели генерации 3D-миров, оптимизированной для работы на потребительских GPU. Новая версия поддерживает более детализированные и сложные сцены, сохраняя при этом высокую скорость рендеринга. Это важно для разработчиков ИИ-агентов, так как позволяет интегрировать генерацию 3D-контента в локальные системы без необходимости использования мощных серверов. arXiv · Машинное обучение Метод VLK для обучения человекоподобных роботов сложным манипуляциям Исследователи представили фреймворк VLK (Vision-Language-Kinematics), решающий проблему нехватки данных для обучения человекоподобных роботов одновременному перемещению и манипуляции объектами. Система генерирует синтетические наборы данных, объединяющие эгоцентрические изображения, текстовые инструкции и кинематические траектории, что позволяет роботам эффективнее связывать визуальное восприятие с физическими действиями в сложных сценариях.

← Все материалы