Исследователи представили метод FORCE для дообучения Vision-Language-Action моделей с использованием обучения с подкреплением. Подход решает проблему низкой эффективности сбора данных и «катастрофического забывания» при переходе от имитационного обучения к RL. Алгоритм использует калиброванный прогрев Q-функции и самодистилляцию, что позволяет моделям превосходить ограничения исходных обучающих датасетов и быстрее адаптироваться к сложным задачам управления.

Традиционные VLA-модели часто ограничены качеством данных, на которых они обучались изначально. Применение обучения с подкреплением (RL) обычно требует огромного количества проб и ошибок, что делает процесс вычислительно затратным и нестабильным. FORCE минимизирует эти риски, стабилизируя процесс обновления политики на ранних этапах, когда модель склонна к резкой потере накопленных навыков из-за нестабильности оценок ценности состояний.

Механизм самодистилляции помогает модели сохранять базовые знания, полученные в ходе имитационного обучения, одновременно исследуя более эффективные стратегии действий. Это позволяет достичь более высоких показателей успешности выполнения задач в робототехнике без необходимости кратного увеличения объема обучающих данных или вычислительных мощностей.

Ключевые факты

  • Метод FORCE устраняет проблему «катастрофического забывания» за счет стабилизации Q-функции на этапе прогрева.
  • Использование самодистилляции позволяет модели эффективно фильтровать низкокачественные стратегии исследования.
  • Подход преодолевает «потолок имитации», характерный для моделей, обученных исключительно на экспертных демонстрациях.
  • Технология ориентирована на повышение sample-эффективности в задачах управления роботами (Vision-Language-Action).
  • Метод позволяет значительно сократить количество итераций, необходимых для дообучения агентов в динамических средах.