Команда Qwen представила Qwen-RobotSuite — набор из трёх моделей для робототехники. Каждая модель решает свою задачу: манипуляции, моделирование мира и навигацию.
Первая модель, RobotManip, — это Vision-Language-Action (VLA) модель, построенная на базе Qwen3.5-4B. Она предназначена для выполнения манипулятивных задач.
Вторая модель, RobotWorld, — это языковая модель видеомира с 60-этажной архитектурой MMDiT. Она предназначена для моделирования мира на основе видео.
Третья модель, RobotNav, — это модель навигации, основанная на Qwen3-VL. Она доступна в трёх размерах: 2B, 4B и 8B параметров.
Каждая модель имеет свою архитектуру и данные, что позволяет им эффективно решать свои задачи в области робототехники.
