arXiv · 24.06.2026 ·Обучение и дообучение

Метод FORCE для эффективного обучения VLA-моделей через подкрепление

Исследователи представили метод FORCE для дообучения Vision-Language-Action моделей с использованием обучения с подкреплением. Подход решает проблему низкой эффективности сбора данных и «катастрофического забывания» при переходе от имитационного обучения к RL. Алгоритм использует калиброванный прогрев Q-функции и самодистилляцию, что позволяет моделям превосходить ограничения исходных обучающих датасетов и быстрее адаптироваться к сложным задачам управления.

Традиционные VLA-модели часто ограничены качеством данных, на которых они обучались изначально. Применение обучения с подкреплением (RL) обычно требует огромного количества проб и ошибок, что делает процесс вычислительно затратным и нестабильным. FORCE минимизирует эти риски, стабилизируя процесс обновления политики на ранних этапах, когда модель склонна к резкой потере накопленных навыков из-за нестабильности оценок ценности состояний.

Механизм самодистилляции помогает модели сохранять базовые знания, полученные в ходе имитационного обучения, одновременно исследуя более эффективные стратегии действий. Это позволяет достичь более высоких показателей успешности выполнения задач в робототехнике без необходимости кратного увеличения объема обучающих данных или вычислительных мощностей.

Ключевые факты

Метод FORCE устраняет проблему «катастрофического забывания» за счет стабилизации Q-функции на этапе прогрева.
Использование самодистилляции позволяет модели эффективно фильтровать низкокачественные стратегии исследования.
Подход преодолевает «потолок имитации», характерный для моделей, обученных исключительно на экспертных демонстрациях.
Технология ориентирована на повышение sample-эффективности в задачах управления роботами (Vision-Language-Action).
Метод позволяет значительно сократить количество итераций, необходимых для дообучения агентов в динамических средах.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы