arXiv · 29.06.2026 ·Машинное обучение

Метод VLK для обучения человекоподобных роботов сложным манипуляциям

Исследователи представили фреймворк VLK (Vision-Language-Kinematics), решающий проблему нехватки данных для обучения человекоподобных роботов одновременному перемещению и манипуляции объектами. Система генерирует синтетические наборы данных, объединяющие эгоцентрические изображения, текстовые инструкции и кинематические траектории, что позволяет роботам эффективнее связывать визуальное восприятие с физическими действиями в сложных сценариях.

Основная сложность в обучении роботов-гуманоидов заключается в отсутствии масштабных датасетов, содержащих синхронизированные данные о зрении, языке и движении. Авторы работы предложили метод реконструкции сцен, который позволяет создавать реалистичные синтетические взаимодействия. Это устраняет необходимость в сборе дорогостоящих данных в реальном мире, обеспечивая модель управления необходимым объемом информации для выполнения комплексных задач.

Использование синтетических данных в реконструированных сценах открывает путь к более быстрому обучению роботов в неструктурированных средах. Модели, обученные с помощью VLK, демонстрируют способность лучше интерпретировать естественные команды и адаптировать движения всего тела для взаимодействия с предметами, сохраняя при этом устойчивость при перемещении.

Ключевые факты

Фреймворк VLK объединяет эгоцентрическое зрение, языковые команды и кинематические данные в единый обучающий поток.
Метод решает проблему нехватки данных, генерируя синтетические взаимодействия в реконструированных 3D-сценах.
Подход позволяет роботам-гуманоидам обучаться сложным навыкам «loco-manipulation» без необходимости сбора огромных массивов данных в физическом пространстве.
Технология направлена на улучшение координации всего тела робота при выполнении задач, требующих одновременного перемещения и взаимодействия с объектами.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы