arXiv · 18.06.2026 ·Машинное обучение

Оптимизация дообучения Vision-Language-Action моделей

Исследователи обнаружили, что для эффективной адаптации Vision-Language-Action (VLA) моделей к конкретным задачам робототехники не требуется задействовать все параметры архитектуры. Анализ показал, что значительная часть слоев в таких моделях избыточна при дообучении на специализированных наборах данных. Использование метода частичной настройки позволяет существенно снизить вычислительные затраты без потери качества управления роботами.

Традиционные VLA-модели, обученные на огромных массивах видеоданных и взаимодействий, обладают миллиардами параметров, что делает их внедрение в реальные системы управления крайне ресурсоемким. Новое исследование доказывает, что при дообучении для выполнения конкретных манипуляций достаточно обновлять лишь малую долю весов, сохраняя при этом высокую точность выполнения операций. Такой подход значительно упрощает процесс адаптации моделей для работы в режиме реального времени.

Полученные результаты открывают путь к более доступному развертыванию интеллектуальных систем управления на периферийных устройствах с ограниченной вычислительной мощностью. Сокращение количества активных слоев при дообучении не только ускоряет цикл разработки, но и снижает требования к GPU-инфраструктуре, необходимой для интеграции моделей в промышленную робототехнику.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Новый метод обучения роботов через использование априорных знаний о движении Исследователи представили метод обучения роботов, который решает проблему нехватки физических навыков у моделей Vision-Language-Action (VLA). Вместо обучения управлению движением с нуля, авторы внедрили механизм априорных знаний об действиях (action priors). Это позволяет модели эффективнее переносить навыки между различными типами робототехнических платформ, значительно ускоряя процесс адаптации к новым задачам манипуляции объектами. arXiv · Инфраструктура для агентов Ускорение VLA-моделей для робототехники без дообучения Исследователи представили метод ускорения Vision-Language-Action (VLA) моделей, основанный на кэшировании и уточнении действий. Подход позволяет оптимизировать итеративный процесс генерации траекторий в моделях на базе flow matching, значительно снижая вычислительные затраты при сохранении точности движений роботов. Технология не требует дополнительного обучения, что упрощает её внедрение в существующие агентные системы управления манипуляторами. arXiv · Машинное обучение Новый метод обучения VLA-моделей через разделение физики и семантики Исследователи предложили новый подход к обучению Vision-Language-Action (VLA) моделей, разделяющий приобретение физических навыков и семантическое понимание задач. Вместо сбора дорогостоящих экспертных демонстраций, метод использует предварительное обучение на неразмеченных видео для освоения базовой моторики, что позволяет значительно снизить зависимость от дефицитных данных при создании робототехнических агентов. arXiv · Оценка и бенчмарки Исследование знаний в моделях Vision-Language-Action Исследователи представили протокол Act2Answer для оценки когнитивных способностей моделей Vision-Language-Action (VLA). Эти системы, предназначенные для управления роботами, обычно создаются путем дообучения мультимодальных моделей на специфических данных из робототехники. Однако до сих пор оставалось неясным, насколько эффективно такие модели сохраняют базовые знания об окружающем мире и здравый смысл после адаптации к физическим задачам. arXiv · Машинное обучение Новая VLA-модель для робототехники с поддержкой калибровки «на лету» Исследователи представили модель Vision-Language-Action (VLA), способную адаптироваться к изменению положения камер без предварительной калибровки. В отличие от существующих решений, требующих жесткой привязки внешних параметров, новая архитектура обеспечивает устойчивость к перемещению или переустановке камер в реальных условиях эксплуатации, что значительно упрощает развертывание робототехнических систем в динамических сценариях. arXiv · Исследования и наука Новый метод обучения роботов RECALL сокращает затраты на демонстрации Исследователи представили метод RECALL (Recovery Experience Collection for Active Lifelong Learning), предназначенный для оптимизации обучения моделей Vision-Language-Action (VLA). Традиционный подход к дообучению роботов основан на пассивном имитационном обучении: система собирает новые данные только после того, как модель совершила ошибку. Это приводит к неэффективному использованию ресурсов, так как экспертам приходится тратить время на демонстрации в ситуациях, которые не всегда критически важны для улучшения навыков робота. arXiv · Обучение и дообучение Метод FORCE для эффективного обучения VLA-моделей через подкрепление Исследователи представили метод FORCE для дообучения Vision-Language-Action моделей с использованием обучения с подкреплением. Подход решает проблему низкой эффективности сбора данных и «катастрофического забывания» при переходе от имитационного обучения к RL. Алгоритм использует калиброванный прогрев Q-функции и самодистилляцию, что позволяет моделям превосходить ограничения исходных обучающих датасетов и быстрее адаптироваться к сложным задачам управления. arXiv · Машинное обучение FurnitureVLA: обучение роботов сложной сборке мебели с помощью VLA-моделей Исследователи представили FurnitureVLA — первую систематическую модель Vision-Language-Action (VLA), предназначенную для решения задач сборки полноразмерной мебели двумя манипуляторами. В отличие от существующих решений, сфокусированных на простых объектах или одной руке, система обучается на сложных последовательностях действий, используя масштабируемый конвейер генерации данных в симуляции и VR-телеуправление для сбора экспертных демонстраций. arXiv · Машинное обучение Метод VLK для обучения человекоподобных роботов сложным манипуляциям Исследователи представили фреймворк VLK (Vision-Language-Kinematics), решающий проблему нехватки данных для обучения человекоподобных роботов одновременному перемещению и манипуляции объектами. Система генерирует синтетические наборы данных, объединяющие эгоцентрические изображения, текстовые инструкции и кинематические траектории, что позволяет роботам эффективнее связывать визуальное восприятие с физическими действиями в сложных сценариях. arXiv · Исследования и наука DLAM: новый метод обучения VLA-моделей на видео без разметки действий Исследователи представили метод DLAM (Distributional Latent Actions), позволяющий эффективно обучать Vision-Language-Action модели, используя видео без разметки действий. В условиях дефицита данных для робототехники подход позволяет извлекать полезные закономерности из обширных массивов видеоданных, обеспечивая при этом необходимую временную согласованность и структуру для генерации управляющих команд роботам в связке с текстовыми инструкциями.

← Все материалы