MarkTechPost · 16.06.2026 ·Модели и релизы

Qwen-RobotSuite: три модели для робототехники

Qwen-RobotSuite: три модели для робототехники

Команда Qwen представила Qwen-RobotSuite — набор из трёх моделей для робототехники. Каждая модель решает свою задачу: манипуляции, моделирование мира и навигацию.

Первая модель, RobotManip, — это Vision-Language-Action (VLA) модель, построенная на базе Qwen3.5-4B. Она предназначена для выполнения манипулятивных задач.

Вторая модель, RobotWorld, — это языковая модель видеомира с 60-этажной архитектурой MMDiT. Она предназначена для моделирования мира на основе видео.

Третья модель, RobotNav, — это модель навигации, основанная на Qwen3-VL. Она доступна в трёх размерах: 2B, 4B и 8B параметров.

Каждая модель имеет свою архитектуру и данные, что позволяет им эффективно решать свои задачи в области робототехники.

Источник: MarkTechPost

Обсудить с ИИ

Похожие материалы

Hacker News · Разработка и инструменты Qwen-Robot Suite — фреймворк для физического интеллекта Компания Qwen представила Qwen-Robot Suite — набор моделей и инструментов для создания робототехнических систем. Это первый в мире фреймворк, объединяющий модели для восприятия, планирования и управления роботами в физическом мире. Hacker News · Модели и релизы Qwen-RobotWorld: новый подход к обучению мультимодальных агентов Команда из Alibaba Group представила Qwen-RobotWorld — новый подход к обучению мультимодальных агентов. В техническом отчёте, опубликованном на arXiv, описаны методы, позволяющие моделям лучше понимать и взаимодействовать с физическим миром. Исследователи использовали комбинацию текстовых и визуальных данных, а также данные из симуляторов роботов для дообучения моделей. arXiv · Инфраструктура для агентов Qwen-AgentWorld: языковые модели как симуляторы среды для ИИ-агентов Исследователи представили Qwen-AgentWorld — новый подход к созданию ИИ-агентов, использующий языковые модели в качестве «мировых моделей» для предсказания динамики среды. Разработка позволяет агентам эффективнее планировать действия и рассуждать, моделируя последствия своих решений в виртуальном пространстве. Ключевым элементом системы стала специализированная модель Qwen-AgentWorld-35B-A3B, оптимизированная для симуляции агентных сред. GitHub · Оркестрация агентов Qwen-AgentWorld: новая среда для обучения языковых моделей агентным навыкам Команда Qwen представила Qwen-AgentWorld — открытую среду для обучения и оценки языковых моделей в задачах, требующих агентного поведения. Проект фокусируется на развитии навыков планирования, использования инструментов и взаимодействия с динамической средой. Система предоставляет стандартизированный фреймворк для тестирования способности моделей решать многошаговые задачи, имитируя реальные сценарии работы ИИ-агентов в условиях неопределенности. The Decoder · Модели и релизы Google DeepMind представила Gemini Robotics 2 для управления роботами Google DeepMind анонсировала Gemini Robotics 2 — новую мультимодальную модель класса VLA (Vision-Language-Action), предназначенную для управления широким спектром робототехнических систем. Решение объединяет визуальное восприятие, понимание естественного языка и планирование действий, позволяя контролировать как компактные настольные манипуляторы, так и полноразмерных гуманоидных роботов, обеспечивая более высокий уровень автономности в выполнении сложных задач. MarkTechPost · Модели и релизы Robbyant представила LingBot-VLA 2.0: открытую модель для управления роботами Robbyant, подразделение Ant Group, выпустило LingBot-VLA 2.0 — открытую Vision-Language-Action модель с 6 млрд параметров, предназначенную для управления различными типами роботов. Система обучалась на 60 000 часов данных, объединяя траектории движений 20 конфигураций роботов и видеозаписи действий человека, что позволяет унифицировать управление разнородными манипуляторами через единое пространство действий. MarkTechPost · Модели и релизы Google DeepMind представила семейство моделей Gemini Robotics 2 для управления роботами Google DeepMind выпустила Gemini Robotics 2 — комплексную интеллектуальную платформу для управления робототехникой. Релиз включает три специализированные модели, отвечающие за координацию движений всего тела гуманоидов, логическое планирование задач и адаптацию к различным аппаратным конфигурациям. Технология уже успешно протестирована на промышленных роботах, демонстрируя способность к быстрой настройке под новые физические платформы. Hacker News · Модели и релизы Релиз Qwen-Audio-3.0-TTS: новая модель для генерации речи и обработки аудио Alibaba представила Qwen-Audio-3.0-TTS — обновленную мультимодальную модель, специализирующуюся на синтезе речи и понимании аудиосигналов. Система демонстрирует высокую точность в задачах преобразования текста в речь, сохраняя естественную интонацию и эмоциональную окраску, а также поддерживает расширенные возможности обработки звуковых данных, что делает её эффективным инструментом для создания интерактивных голосовых интерфейсов и автоматизированных систем обработки аудиоконтента. Hacker News · Модели и релизы Релиз мультимодальной модели Qwen-Image-3.0 Alibaba Cloud представила Qwen-Image-3.0 — новую мультимодальную модель, ориентированную на высококачественную генерацию изображений и глубокое понимание визуального контента. Система демонстрирует значительные улучшения в отрисовке текста, передаче сложных текстур и соблюдении физических свойств объектов, что делает её конкурентоспособным инструментом для задач, требующих высокой визуальной точности и детализации в генеративных процессах. Hacker News · Инференс и железо Релиз Qwen-AgentWorld-35B-A3B: локальная модель мира для агентных систем Представлена модель Qwen-AgentWorld-35B-A3B — специализированная «модель мира», оптимизированная для работы на потребительском оборудовании. Архитектура использует 35 миллиардов параметров с активным использованием 3 миллиардов на токен, что позволяет эффективно решать задачи агентного планирования и взаимодействия с внешней средой, сохраняя при этом высокую скорость генерации и низкие требования к оперативной памяти.

← Все материалы