Hugging Face - Blog · 17.06.2026 ·Исследования и наука

MolmoMotion: новая модель для прогнозирования 3D-движений по текстовому описанию

MolmoMotion: новая модель для прогнозирования 3D-движений по текстовому описанию

Институт искусственного интеллекта Аллена (AI2) представил MolmoMotion — специализированную модель, предназначенную для прогнозирования 3D-траекторий движения объектов на основе текстовых инструкций. Разработка опирается на архитектуру мультимодальных моделей Molmo, что позволяет системе эффективно интерпретировать сложные семантические описания действий и переносить их в физическое пространство.

Ключевая особенность модели заключается в способности предсказывать последовательность 3D-координат, соответствующих заданному сценарию. В отличие от традиционных методов генерации анимации, требующих детальной разметки, MolmoMotion обучалась на обширных наборах данных, связывающих естественный язык с динамическими сценами. Это позволяет системе понимать контекст и нюансы движений, которые сложно формализовать стандартными алгоритмами.

Технология открывает новые возможности для автоматизации создания контента в робототехнике и компьютерном моделировании. Благодаря интеграции языкового понимания и пространственного прогнозирования, модель способна генерировать реалистичные траектории для виртуальных агентов и физических систем, минимизируя необходимость в ручном проектировании анимационных последовательностей. Исследователи опубликовали веса модели и методологию обучения, предоставляя сообществу инструмент для дальнейшего развития систем управления движением.

Источник: Hugging Face - Blog

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение MoPe: новый метод для стабильного 3D-картографирования в динамических сценах Исследователи представили метод MoPe (Motion Permanence), решающий проблему нестабильности монокулярного Gaussian Splatting SLAM в динамических средах. В отличие от существующих подходов, которые воспринимают движущиеся объекты как кратковременные помехи, MoPe обеспечивает сохранение целостности карты при изменении сцены. Это позволяет роботам сохранять точность локализации и навигации, даже когда объекты в поле зрения перемещаются или временно скрываются. Hacker News · Модели и релизы LingBot-Video: открытая MoE-модель для воплощенного ИИ Представлена LingBot-Video — open-source модель на архитектуре Mixture-of-Experts (MoE), разработанная для задач воплощенного ИИ (embodied AI). Решение ориентировано на обработку видеоданных, позволяя агентам лучше интерпретировать визуальную информацию в динамической среде. Модель доступна для исследователей и разработчиков, стремящихся интегрировать продвинутые возможности компьютерного зрения в свои агентные системы и робототехнические платформы. arXiv · Исследования и наука Новый метод предсказания динамики сцен через вероятностное моделирование Исследователи представили метод Goal-Aware Representations of Future Kinematics (GRAF-Kin), позволяющий ИИ моделировать множественные варианты развития событий в видео вместо генерации единственного сценария. Подход фокусируется на предсказании кинематики объектов, учитывая неопределенность будущего, что критически важно для задач робототехники, автономного вождения и анализа сложных динамических сцен с неполными данными. MarkTechPost · Инфраструктура для агентов Ant Group представила LingBot-VA 2.0: фундаментальную модель для физического ИИ Подразделение Robbyant компании Ant Group выпустило LingBot-VA 2.0 — специализированную модель для управления робототехникой. В отличие от решений на базе генеративного видео, эта архитектура с нуля спроектирована для воплощенного ИИ. Система использует причинно-следственное мышление для прогнозирования состояний среды и обеспечивает высокую частоту управления, что критически важно для автономных физических агентов в реальном времени. GitHub · Машинное обучение Масштабируемое обучение видеомоделей для воплощенного ИИ Проект LingBot-Video представляет новый подход к масштабированию обучения видеомоделей на основе архитектуры Mixture-of-Experts (MoE). Метод направлен на развитие воплощенного интеллекта (Embodied Intelligence), позволяя моделям эффективнее обрабатывать визуальные данные и обучаться на больших наборах видео, что критически важно для управления робототехническими системами и понимания динамических сред в реальном времени. arXiv · Исследования и наука GS-Agent: генерация 4D-миров на основе текстовых описаний Исследователи представили GS-Agent — систему для автоматического создания динамических и физически корректных 4D-сред на основе текстовых промптов. Решение объединяет генеративные модели с физическим моделированием, позволяя формировать визуально детализированные миры с реалистичной анимацией и взаимодействием объектов, что значительно сокращает трудозатраты на ручную настройку материалов, освещения и траекторий движения в традиционной компьютерной графике. arXiv · Машинное обучение Новый подход к обучению агентов пониманию и генерации движений Исследователи представили метод адаптации моделей для непрерывного обучения агентов, работающих с человеческими движениями. Решение использует модификации LoRA для последовательного освоения новых концепций — от спортивных стилей до специфических жестов — без потери ранее накопленных знаний. Это позволяет ИИ-агентам эффективно адаптироваться к динамическим средам, сохраняя двунаправленную способность к преобразованию текста в движение и обратно. MarkTechPost · Модели и релизы LingBot-World-Infinity: новая каузальная модель мира для ИИ-агентов Подразделение Ant Group представило LingBot-World-Infinity — 14-миллиардную каузальную модель видеогенерации, функционирующую как интерактивный симулятор реальности. Архитектура модели использует инновационную маску внимания MoBA и дистилляцию на основе распределений, что позволяет агентам эффективно взаимодействовать с динамической средой, предсказывая последствия своих действий в долгосрочной перспективе с высокой точностью и стабильностью симуляции. arXiv · Исследования и наука VLM-IE3D: новый подход к пространственному мышлению мультимодальных моделей Исследователи представили VLM-IE3D — архитектуру, которая наделяет мультимодальные модели (VLM) способностью к глубокому пониманию 3D-пространства. В отличие от стандартных моделей, работающих с 2D-изображениями, этот фреймворк интегрирует явные и неявные геометрические представления, что позволяет ИИ точнее интерпретировать пространственные отношения объектов, глубину и структуру сцены, значительно повышая качество выполнения задач, требующих 3D-рассуждений. MarkTechPost · Модели и релизы Robbyant представила LingBot-VLA 2.0: открытую модель для управления роботами Robbyant, подразделение Ant Group, выпустило LingBot-VLA 2.0 — открытую Vision-Language-Action модель с 6 млрд параметров, предназначенную для управления различными типами роботов. Система обучалась на 60 000 часов данных, объединяя траектории движений 20 конфигураций роботов и видеозаписи действий человека, что позволяет унифицировать управление разнородными манипуляторами через единое пространство действий.

← Все материалы