Исследователи представили фреймворк VLK (Vision-Language-Kinematics), решающий проблему нехватки данных для обучения человекоподобных роботов одновременному перемещению и манипуляции объектами. Система генерирует синтетические наборы данных, объединяющие эгоцентрические изображения, текстовые инструкции и кинематические траектории, что позволяет роботам эффективнее связывать визуальное восприятие с физическими действиями в сложных сценариях.
Основная сложность в обучении роботов-гуманоидов заключается в отсутствии масштабных датасетов, содержащих синхронизированные данные о зрении, языке и движении. Авторы работы предложили метод реконструкции сцен, который позволяет создавать реалистичные синтетические взаимодействия. Это устраняет необходимость в сборе дорогостоящих данных в реальном мире, обеспечивая модель управления необходимым объемом информации для выполнения комплексных задач.
Использование синтетических данных в реконструированных сценах открывает путь к более быстрому обучению роботов в неструктурированных средах. Модели, обученные с помощью VLK, демонстрируют способность лучше интерпретировать естественные команды и адаптировать движения всего тела для взаимодействия с предметами, сохраняя при этом устойчивость при перемещении.
Ключевые факты
- Фреймворк VLK объединяет эгоцентрическое зрение, языковые команды и кинематические данные в единый обучающий поток.
- Метод решает проблему нехватки данных, генерируя синтетические взаимодействия в реконструированных 3D-сценах.
- Подход позволяет роботам-гуманоидам обучаться сложным навыкам «loco-manipulation» без необходимости сбора огромных массивов данных в физическом пространстве.
- Технология направлена на улучшение координации всего тела робота при выполнении задач, требующих одновременного перемещения и взаимодействия с объектами.