Исследователи представили FurnitureVLA — первую систематическую модель Vision-Language-Action (VLA), предназначенную для решения задач сборки полноразмерной мебели двумя манипуляторами. В отличие от существующих решений, сфокусированных на простых объектах или одной руке, система обучается на сложных последовательностях действий, используя масштабируемый конвейер генерации данных в симуляции и VR-телеуправление для сбора экспертных демонстраций.

Работа решает проблему долгосрочного планирования в робототехнике, где последовательность действий требует высокой точности и координации обеих рук. Авторы формализовали задачу сборки мебели, создав среду, которая позволяет эффективно обучать модели сложным манипуляционным навыкам. Использование VLA-архитектуры позволяет роботу лучше понимать визуальные инструкции и соотносить их с физическими действиями в реальном времени.

Разработанный подход включает в себя создание специализированного датасета и инфраструктуры для оценки производительности агентов в условиях, приближенных к реальности. Это открывает путь к автоматизации задач, требующих многоэтапного взаимодействия с объектами разной геометрии, что ранее было труднодостижимо для стандартных моделей управления роботами.

Ключевые факты

  • FurnitureVLA — первая модель, ориентированная на двуручную сборку мебели в реальном масштабе.
  • Система использует VLA-архитектуру для интеграции визуального восприятия, языковых команд и управления приводами.
  • Разработан масштабируемый симуляционный конвейер для генерации экспертных данных и автоматизированного тестирования.
  • Внедрена система VR-телеуправления, позволяющая собирать высококачественные демонстрации действий человека для обучения модели.