Институт искусственного интеллекта Аллена (AI2) представил MolmoMotion — специализированную модель, предназначенную для прогнозирования 3D-траекторий движения объектов на основе текстовых инструкций. Разработка опирается на архитектуру мультимодальных моделей Molmo, что позволяет системе эффективно интерпретировать сложные семантические описания действий и переносить их в физическое пространство.
Ключевая особенность модели заключается в способности предсказывать последовательность 3D-координат, соответствующих заданному сценарию. В отличие от традиционных методов генерации анимации, требующих детальной разметки, MolmoMotion обучалась на обширных наборах данных, связывающих естественный язык с динамическими сценами. Это позволяет системе понимать контекст и нюансы движений, которые сложно формализовать стандартными алгоритмами.
Технология открывает новые возможности для автоматизации создания контента в робототехнике и компьютерном моделировании. Благодаря интеграции языкового понимания и пространственного прогнозирования, модель способна генерировать реалистичные траектории для виртуальных агентов и физических систем, минимизируя необходимость в ручном проектировании анимационных последовательностей. Исследователи опубликовали веса модели и методологию обучения, предоставляя сообществу инструмент для дальнейшего развития систем управления движением.
