Исследователи представили InSight — фреймворк, позволяющий Vision-Language-Action (VLA) моделям самостоятельно осваивать новые манипуляционные навыки без необходимости в дополнительных демонстрациях. Система делает модели управляемыми на уровне элементарных действий, что позволяет агентам комбинировать базовые движения для выполнения сложных задач, выходящих за рамки их исходного обучающего набора данных.
Традиционные VLA-модели ограничены теми навыками, которые были заложены в них при обучении. InSight решает эту проблему, разделяя процесс на два этапа: сначала модель учится интерпретировать и исполнять примитивные команды, такие как перемещение захвата или подъем объекта, а затем использует эти примитивы для самостоятельной отработки более сложных последовательностей. Это значительно расширяет возможности робототехники в непредсказуемых средах.
Метод позволяет агентам не просто копировать действия человека, а «понимать» структуру манипуляций. Благодаря возможности управления на уровне примитивов, система способна адаптироваться к новым сценариям, где требуется точная координация движений, что ранее было недоступно для моделей, обученных исключительно методом имитационного обучения.
Ключевые факты
- InSight обеспечивает автономное приобретение навыков за счет управления VLA-моделями на уровне элементарных действий (primitive-action level).
- Фреймворк преодолевает ограничения обучающих выборок, позволяя агентам выполнять задачи, не представленные в исходных демонстрациях.
- Процесс обучения разделен на два этапа, где агент сначала осваивает базовые моторные примитивы, а затем интегрирует их в сложные цепочки действий.
- Технология направлена на повышение гибкости робототехнических систем в задачах манипуляции объектами.