arXiv · 17.06.2026 ·Оценка и бенчмарки

Исследование знаний в моделях Vision-Language-Action

Исследователи представили протокол Act2Answer для оценки когнитивных способностей моделей Vision-Language-Action (VLA). Эти системы, предназначенные для управления роботами, обычно создаются путем дообучения мультимодальных моделей на специфических данных из робототехники. Однако до сих пор оставалось неясным, насколько эффективно такие модели сохраняют базовые знания об окружающем мире и здравый смысл после адаптации к физическим задачам.

Основная проблема при тестировании VLA-моделей заключается в сложности интерпретации ошибок. Когда робот совершает неверное действие, трудно определить причину: нехватку фактических знаний или низкое качество управления на низком уровне. Новый метод Act2Answer позволяет изолировать эти аспекты, проверяя способность модели отвечать на вопросы, требующие понимания контекста и логики, без необходимости выполнения физических манипуляций.

Результаты анализа показывают, что процесс дообучения для нужд робототехники может приводить к деградации общих знаний, заложенных в исходные модели. Разработанный протокол помогает разработчикам точнее оценивать, какие именно навыки теряются при переходе от универсальных мультимодальных систем к узкоспециализированным агентным решениям, что критически важно для создания более надежных и предсказуемых автономных роботов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Модели и релизы Исследование: VLA-модели плохо работают с неанглийскими языками Недавнее исследование, опубликованное на arXiv, раскрывает значительный пробел в способности Vision-Language-Action (VLA) моделей работать с языками, отличными от английского. Эти модели, которые демонстрируют многообещающие возможности в обучении универсальных политик роботов на основе мультимодальных данных, в основном обучаются и оцениваются на английских инструкциях. Это оставляет их способность понимать и выполнять команды на других языках практически неизученной. arXiv · Машинное обучение Новый метод обучения роботов через использование априорных знаний о движении Исследователи представили метод обучения роботов, который решает проблему нехватки физических навыков у моделей Vision-Language-Action (VLA). Вместо обучения управлению движением с нуля, авторы внедрили механизм априорных знаний об действиях (action priors). Это позволяет модели эффективнее переносить навыки между различными типами робототехнических платформ, значительно ускоряя процесс адаптации к новым задачам манипуляции объектами. arXiv · Машинное обучение Новый метод обучения VLA-моделей через разделение физики и семантики Исследователи предложили новый подход к обучению Vision-Language-Action (VLA) моделей, разделяющий приобретение физических навыков и семантическое понимание задач. Вместо сбора дорогостоящих экспертных демонстраций, метод использует предварительное обучение на неразмеченных видео для освоения базовой моторики, что позволяет значительно снизить зависимость от дефицитных данных при создании робототехнических агентов. arXiv · Машинное обучение Оптимизация дообучения Vision-Language-Action моделей Исследователи обнаружили, что для эффективной адаптации Vision-Language-Action (VLA) моделей к конкретным задачам робототехники не требуется задействовать все параметры архитектуры. Анализ показал, что значительная часть слоев в таких моделях избыточна при дообучении на специализированных наборах данных. Использование метода частичной настройки позволяет существенно снизить вычислительные затраты без потери качества управления роботами. arXiv · Исследования и наука Новый метод обучения роботов RECALL сокращает затраты на демонстрации Исследователи представили метод RECALL (Recovery Experience Collection for Active Lifelong Learning), предназначенный для оптимизации обучения моделей Vision-Language-Action (VLA). Традиционный подход к дообучению роботов основан на пассивном имитационном обучении: система собирает новые данные только после того, как модель совершила ошибку. Это приводит к неэффективному использованию ресурсов, так как экспертам приходится тратить время на демонстрации в ситуациях, которые не всегда критически важны для улучшения навыков робота. arXiv · Инфраструктура для агентов Ускорение VLA-моделей для робототехники без дообучения Исследователи представили метод ускорения Vision-Language-Action (VLA) моделей, основанный на кэшировании и уточнении действий. Подход позволяет оптимизировать итеративный процесс генерации траекторий в моделях на базе flow matching, значительно снижая вычислительные затраты при сохранении точности движений роботов. Технология не требует дополнительного обучения, что упрощает её внедрение в существующие агентные системы управления манипуляторами. arXiv · Машинное обучение Новая VLA-модель для робототехники с поддержкой калибровки «на лету» Исследователи представили модель Vision-Language-Action (VLA), способную адаптироваться к изменению положения камер без предварительной калибровки. В отличие от существующих решений, требующих жесткой привязки внешних параметров, новая архитектура обеспечивает устойчивость к перемещению или переустановке камер в реальных условиях эксплуатации, что значительно упрощает развертывание робототехнических систем в динамических сценариях. arXiv · Обучение и дообучение Метод FORCE для эффективного обучения VLA-моделей через подкрепление Исследователи представили метод FORCE для дообучения Vision-Language-Action моделей с использованием обучения с подкреплением. Подход решает проблему низкой эффективности сбора данных и «катастрофического забывания» при переходе от имитационного обучения к RL. Алгоритм использует калиброванный прогрев Q-функции и самодистилляцию, что позволяет моделям превосходить ограничения исходных обучающих датасетов и быстрее адаптироваться к сложным задачам управления. arXiv · Машинное обучение FurnitureVLA: обучение роботов сложной сборке мебели с помощью VLA-моделей Исследователи представили FurnitureVLA — первую систематическую модель Vision-Language-Action (VLA), предназначенную для решения задач сборки полноразмерной мебели двумя манипуляторами. В отличие от существующих решений, сфокусированных на простых объектах или одной руке, система обучается на сложных последовательностях действий, используя масштабируемый конвейер генерации данных в симуляции и VR-телеуправление для сбора экспертных демонстраций. MarkTechPost · Модели и релизы Robbyant представила LingBot-VLA 2.0: открытую модель для управления роботами Robbyant, подразделение Ant Group, выпустило LingBot-VLA 2.0 — открытую Vision-Language-Action модель с 6 млрд параметров, предназначенную для управления различными типами роботов. Система обучалась на 60 000 часов данных, объединяя траектории движений 20 конфигураций роботов и видеозаписи действий человека, что позволяет унифицировать управление разнородными манипуляторами через единое пространство действий.

← Все материалы