arXiv · 23.06.2026 ·Машинное обучение

InSight: новый метод автономного обучения навыкам для VLA-моделей

Исследователи представили InSight — фреймворк, позволяющий Vision-Language-Action (VLA) моделям самостоятельно осваивать новые манипуляционные навыки без необходимости в дополнительных демонстрациях. Система делает модели управляемыми на уровне элементарных действий, что позволяет агентам комбинировать базовые движения для выполнения сложных задач, выходящих за рамки их исходного обучающего набора данных.

Традиционные VLA-модели ограничены теми навыками, которые были заложены в них при обучении. InSight решает эту проблему, разделяя процесс на два этапа: сначала модель учится интерпретировать и исполнять примитивные команды, такие как перемещение захвата или подъем объекта, а затем использует эти примитивы для самостоятельной отработки более сложных последовательностей. Это значительно расширяет возможности робототехники в непредсказуемых средах.

Метод позволяет агентам не просто копировать действия человека, а «понимать» структуру манипуляций. Благодаря возможности управления на уровне примитивов, система способна адаптироваться к новым сценариям, где требуется точная координация движений, что ранее было недоступно для моделей, обученных исключительно методом имитационного обучения.

Ключевые факты

InSight обеспечивает автономное приобретение навыков за счет управления VLA-моделями на уровне элементарных действий (primitive-action level).
Фреймворк преодолевает ограничения обучающих выборок, позволяя агентам выполнять задачи, не представленные в исходных демонстрациях.
Процесс обучения разделен на два этапа, где агент сначала осваивает базовые моторные примитивы, а затем интегрирует их в сложные цепочки действий.
Технология направлена на повышение гибкости робототехнических систем в задачах манипуляции объектами.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы