Исследователи предложили новый подход к обучению Vision-Language-Action (VLA) моделей, разделяющий приобретение физических навыков и семантическое понимание задач. Вместо сбора дорогостоящих экспертных демонстраций, метод использует предварительное обучение на неразмеченных видео для освоения базовой моторики, что позволяет значительно снизить зависимость от дефицитных данных при создании робототехнических агентов.
Основная проблема современных VLA-моделей заключается в необходимости использования «троек» данных: наблюдений, инструкций и действий. Сбор таких наборов данных требует участия человека и является крайне трудоемким процессом. Авторы исследования доказывают, что обучение движению (физическая компетенция) может происходить независимо от понимания конкретных команд (семантическое соответствие).
Предложенная методика позволяет моделям сначала «научиться двигаться» на больших массивах видеоданных, не содержащих текстовых инструкций или целевых действий. После этого модель дообучается на малом количестве размеченных примеров для выполнения конкретных задач. Такой подход позволяет эффективно масштабировать обучение роботов, используя доступные видеоархивы вместо редких и дорогих записей работы экспертов.
Ключевые факты
- VLA-модели ограничены дефицитом экспертных демонстраций, состоящих из наблюдений, инструкций и действий.
- Метод разделяет обучение на два этапа: приобретение физической компетенции и освоение семантического соответствия.
- Предварительное обучение на неразмеченных видео позволяет модели освоить базовую моторику без участия человека.
- Разделение задач снижает потребность в дорогостоящем сборе данных для обучения робототехнических систем.