Исследователи предложили новый метод PearlVLA для улучшения планирования в Vision-Language-Action (VLA) моделях. Текущие VLA-модели сталкиваются с компромиссом между эффективностью генерации действий и явным планированием. Прямое декодирование действий из представлений визуально-языкового бэкенда обеспечивает низкую задержку, но явное планирование через текстовые цепочки или поиск действий увеличивает задержку и вычислительные затраты.

PearlVLA предлагает прогрессивное уточнение планов действий в латентном пространстве. Это позволяет улучшить планирование без значительного увеличения задержки и вычислительных ресурсов. Исследователи утверждают, что их метод может найти применение в робототехнике и других областях, где требуется сложное планирование действий на основе визуальных и языковых данных.

Статья с подробным описанием метода и экспериментов опубликована на arXiv. Исследователи планируют дальнейшее развитие метода для применения в реальных сценариях.