arXiv · 16.06.2026 ·Машинное обучение

Новый подход к улучшению планирования в Vision-Language-Action моделях

Исследователи предложили новый метод PearlVLA для улучшения планирования в Vision-Language-Action (VLA) моделях. Текущие VLA-модели сталкиваются с компромиссом между эффективностью генерации действий и явным планированием. Прямое декодирование действий из представлений визуально-языкового бэкенда обеспечивает низкую задержку, но явное планирование через текстовые цепочки или поиск действий увеличивает задержку и вычислительные затраты.

PearlVLA предлагает прогрессивное уточнение планов действий в латентном пространстве. Это позволяет улучшить планирование без значительного увеличения задержки и вычислительных ресурсов. Исследователи утверждают, что их метод может найти применение в робототехнике и других областях, где требуется сложное планирование действий на основе визуальных и языковых данных.

Статья с подробным описанием метода и экспериментов опубликована на arXiv. Исследователи планируют дальнейшее развитие метода для применения в реальных сценариях.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Новый метод обучения VLA-моделей через разделение физики и семантики Исследователи предложили новый подход к обучению Vision-Language-Action (VLA) моделей, разделяющий приобретение физических навыков и семантическое понимание задач. Вместо сбора дорогостоящих экспертных демонстраций, метод использует предварительное обучение на неразмеченных видео для освоения базовой моторики, что позволяет значительно снизить зависимость от дефицитных данных при создании робототехнических агентов. arXiv · Инфраструктура для агентов Ускорение VLA-моделей для робототехники без дообучения Исследователи представили метод ускорения Vision-Language-Action (VLA) моделей, основанный на кэшировании и уточнении действий. Подход позволяет оптимизировать итеративный процесс генерации траекторий в моделях на базе flow matching, значительно снижая вычислительные затраты при сохранении точности движений роботов. Технология не требует дополнительного обучения, что упрощает её внедрение в существующие агентные системы управления манипуляторами. arXiv · Исследования и наука DLAM: новый метод обучения VLA-моделей на видео без разметки действий Исследователи представили метод DLAM (Distributional Latent Actions), позволяющий эффективно обучать Vision-Language-Action модели, используя видео без разметки действий. В условиях дефицита данных для робототехники подход позволяет извлекать полезные закономерности из обширных массивов видеоданных, обеспечивая при этом необходимую временную согласованность и структуру для генерации управляющих команд роботам в связке с текстовыми инструкциями. arXiv · Машинное обучение Новый метод обучения роботов через использование априорных знаний о движении Исследователи представили метод обучения роботов, который решает проблему нехватки физических навыков у моделей Vision-Language-Action (VLA). Вместо обучения управлению движением с нуля, авторы внедрили механизм априорных знаний об действиях (action priors). Это позволяет модели эффективнее переносить навыки между различными типами робототехнических платформ, значительно ускоряя процесс адаптации к новым задачам манипуляции объектами. arXiv · Машинное обучение Оптимизация дообучения Vision-Language-Action моделей Исследователи обнаружили, что для эффективной адаптации Vision-Language-Action (VLA) моделей к конкретным задачам робототехники не требуется задействовать все параметры архитектуры. Анализ показал, что значительная часть слоев в таких моделях избыточна при дообучении на специализированных наборах данных. Использование метода частичной настройки позволяет существенно снизить вычислительные затраты без потери качества управления роботами. arXiv · Оценка и бенчмарки Исследование знаний в моделях Vision-Language-Action Исследователи представили протокол Act2Answer для оценки когнитивных способностей моделей Vision-Language-Action (VLA). Эти системы, предназначенные для управления роботами, обычно создаются путем дообучения мультимодальных моделей на специфических данных из робототехники. Однако до сих пор оставалось неясным, насколько эффективно такие модели сохраняют базовые знания об окружающем мире и здравый смысл после адаптации к физическим задачам. arXiv · Машинное обучение InSight: новый метод автономного обучения навыкам для VLA-моделей Исследователи представили InSight — фреймворк, позволяющий Vision-Language-Action (VLA) моделям самостоятельно осваивать новые манипуляционные навыки без необходимости в дополнительных демонстрациях. Система делает модели управляемыми на уровне элементарных действий, что позволяет агентам комбинировать базовые движения для выполнения сложных задач, выходящих за рамки их исходного обучающего набора данных. arXiv · Исследования и наука Метод VAORA улучшает физическое планирование и обобщение действий в VLM Исследователи представили VAORA (Visual Action Outcome Reasoning Alignment) — новый метод обучения, направленный на устранение разрыва между логическими рассуждениями и физическими действиями в мультимодальных моделях (VLM). Технология минимизирует галлюцинации в цепочках рассуждений (CoT) и повышает точность выполнения задач в ранее не встречавшихся средах, обеспечивая лучшее соответствие между планированием и результатом. arXiv · Обучение и дообучение Новый метод для эффективного онлайн-обучения визуально-языковых агентов Исследователи предложили новый подход к онлайн-обучению визуально-языковых агентов (VLA) с использованием методов reinforcement learning (RL). В статье, опубликованной на arXiv, они описывают метод Hierarchical Advantage Weighting (HAW), который решает проблему редких и неинформативных сигналов обратной связи в процессе обучения. arXiv · Память и RAG LabVLA: ИИ-агенты для выполнения научных экспериментов Исследователи представили LabVLA — фреймворк, который позволяет ИИ-агентам не только анализировать научные данные и генерировать гипотезы, но и выполнять физические действия в лабораториях. Это важный шаг в интеграции ИИ в реальные научные процессы, где до сих пор требуется человеческое вмешательство.

← Все материалы