Исследователи представили OrbitForge — метод генерации 3D-сцен из текстовых описаний, использующий предобученные видеомодели в качестве основы. Система решает проблему пространственной несогласованности и ограниченного обзора, характерную для генерации видео, путем интеграции адаптера с технологией 3D Gaussian Splatting. Это позволяет создавать качественные и геометрически корректные 3D-объекты, сохраняя при этом высокую детализацию, свойственную современным генеративным видеомоделям.

Основная сложность существующих моделей Text-to-Video заключается в отсутствии контроля над движением камеры и временной нестабильности кадров, что препятствует прямому извлечению 3D-активов. OrbitForge преодолевает эти ограничения, фиксируя параметры видеомоделей и применяя метод реконструкции на основе Gaussian Splatting для каждого промпта. Такой подход обеспечивает «якорную» привязку визуальных данных к 3D-пространству, что значительно повышает точность геометрии и полноту охвата сцены.

Технология позволяет эффективно трансформировать двухмерные генеративные приоритеты в полноценные трехмерные сцены. Метод демонстрирует значительный прогресс в решении задач, где требуется высокая степень согласованности между различными ракурсами объекта. Это открывает новые возможности для автоматизации создания 3D-контента в индустриях, требующих быстрой визуализации сложных объектов без необходимости ручного моделирования.

Ключевые факты

  • OrbitForge использует замороженные веса существующих видеомоделей для извлечения богатых визуальных данных об окружающем мире.
  • В основе метода лежит интеграция per-prompt Gaussian Splatting, обеспечивающая геометрическую целостность сцены.
  • Система устраняет типичные ошибки генерации, такие как неконтролируемое движение камеры и временные артефакты между кадрами.
  • Разработка позволяет получать надежные 3D-активы из текстовых запросов, что ранее было затруднительно из-за частичного охвата объектов в видеопотоке.