Исследователи представили FurnitureVLA — первую систематическую модель Vision-Language-Action (VLA), предназначенную для решения задач сборки полноразмерной мебели двумя манипуляторами. В отличие от существующих решений, сфокусированных на простых объектах или одной руке, система обучается на сложных последовательностях действий, используя масштабируемый конвейер генерации данных в симуляции и VR-телеуправление для сбора экспертных демонстраций.
Работа решает проблему долгосрочного планирования в робототехнике, где последовательность действий требует высокой точности и координации обеих рук. Авторы формализовали задачу сборки мебели, создав среду, которая позволяет эффективно обучать модели сложным манипуляционным навыкам. Использование VLA-архитектуры позволяет роботу лучше понимать визуальные инструкции и соотносить их с физическими действиями в реальном времени.
Разработанный подход включает в себя создание специализированного датасета и инфраструктуры для оценки производительности агентов в условиях, приближенных к реальности. Это открывает путь к автоматизации задач, требующих многоэтапного взаимодействия с объектами разной геометрии, что ранее было труднодостижимо для стандартных моделей управления роботами.
Ключевые факты
- FurnitureVLA — первая модель, ориентированная на двуручную сборку мебели в реальном масштабе.
- Система использует VLA-архитектуру для интеграции визуального восприятия, языковых команд и управления приводами.
- Разработан масштабируемый симуляционный конвейер для генерации экспертных данных и автоматизированного тестирования.
- Внедрена система VR-телеуправления, позволяющая собирать высококачественные демонстрации действий человека для обучения модели.