arXiv · 26.06.2026 ·Исследования и наука

HAT-4D: метод реконструкции 4D-взаимодействий объектов из монокулярного видео

Исследователи представили HAT-4D — новый метод для извлечения динамических 4D-взаимодействий между объектами из обычных монокулярных видеозаписей. Технология решает проблему сильных перекрытий и сложной динамики, с которыми не справляются существующие подходы. Это решение открывает путь к эффективному сбору данных для обучения воплощенного ИИ (Embodied AI) и визуально-языковых моделей действий (VLA) в реальных условиях.

Традиционные методы 4D-реконструкции чаще всего ориентированы на изолированные объекты, что ограничивает их применение в сценах с множественным взаимодействием. HAT-4D использует подход «человек-агент», который позволяет системе лучше интерпретировать сложные пространственно-временные связи. Алгоритм эффективно восстанавливает геометрию и траектории движения объектов даже в условиях, когда они частично скрыты друг от друга или от камеры.

Масштабирование обучения робототехники требует огромных объемов размеченных данных, получение которых в реальном мире крайне трудоемко. Использование видео из открытых источников в качестве обучающей выборки значительно снижает затраты на подготовку датасетов. Разработка позволяет автоматизировать процесс извлечения высококачественных 4D-данных, что критически важно для развития автономных агентов, способных взаимодействовать с физическим миром.

Ключевые факты

Метод HAT-4D предназначен для реконструкции 4D-сцен из монокулярного видео, что упрощает сбор данных для Embodied AI.
Алгоритм успешно преодолевает проблему сильных окклюзий (перекрытий), характерную для сложных многообъектных взаимодействий.
Технология ориентирована на масштабируемую подготовку данных для обучения визуально-языковых моделей действий (VLA).
Подход использует коллаборацию «человек-агент» для повышения точности интерпретации динамических сцен в неконтролируемых условиях.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы