arXiv · 22.06.2026 ·Исследования и наука

Новый метод обучения роботов RECALL сокращает затраты на демонстрации

Исследователи представили метод RECALL (Recovery Experience Collection for Active Lifelong Learning), предназначенный для оптимизации обучения моделей Vision-Language-Action (VLA). Традиционный подход к дообучению роботов основан на пассивном имитационном обучении: система собирает новые данные только после того, как модель совершила ошибку. Это приводит к неэффективному использованию ресурсов, так как экспертам приходится тратить время на демонстрации в ситуациях, которые не всегда критически важны для улучшения навыков робота.

Алгоритм RECALL меняет этот процесс, внедряя механизм активного обучения. Вместо ожидания сбоев система самостоятельно определяет состояния, в которых модель обладает наибольшей неопределенностью, и запрашивает демонстрации именно для этих сценариев. Такой подход позволяет сфокусировать усилия человека-оператора на наиболее сложных и информативных задачах, исключая избыточный сбор данных в предсказуемых ситуациях.

Внедрение RECALL позволяет значительно повысить эффективность дообучения VLA-моделей в долгосрочной перспективе. Метод не только снижает временные затраты на подготовку обучающих выборок, но и ускоряет адаптацию роботов к новым условиям эксплуатации. Исследование демонстрирует, что целенаправленный сбор опыта критически важен для создания более надежных и автономных систем, способных к непрерывному обучению в реальных условиях.

Источник: arXiv

Похожие материалы

arXiv · Машинное обучение Оптимизация дообучения Vision-Language-Action моделей Исследователи обнаружили, что для эффективной адаптации Vision-Language-Action (VLA) моделей к конкретным задачам робототехники не требуется задействовать все параметры архитектуры. Анализ показал, что значительная часть слоев в таких моделях избыточна при дообучении на специализированных наборах данных. Использование метода частичной настройки позволяет существенно снизить вычислительные затраты без потери качества управления роботами. arXiv · Оценка и бенчмарки Исследование знаний в моделях Vision-Language-Action Исследователи представили протокол Act2Answer для оценки когнитивных способностей моделей Vision-Language-Action (VLA). Эти системы, предназначенные для управления роботами, обычно создаются путем дообучения мультимодальных моделей на специфических данных из робототехники. Однако до сих пор оставалось неясным, насколько эффективно такие модели сохраняют базовые знания об окружающем мире и здравый смысл после адаптации к физическим задачам. arXiv · ИИ в бизнесе Новый фреймворк VERITAS для обучения роботов на основе визуальной проверки Исследователи предложили новый подход к обучению роботов, который позволяет им улучшать свои навыки в реальном времени. В статье на arXiv представлен фреймворк VERITAS, сочетающий генератор и верификатор для корректировки политик роботов и их самостоятельного улучшения. arXiv · Обучение и дообучение Новый метод для эффективного онлайн-обучения визуально-языковых агентов Исследователи предложили новый подход к онлайн-обучению визуально-языковых агентов (VLA) с использованием методов reinforcement learning (RL). В статье, опубликованной на arXiv, они описывают метод Hierarchical Advantage Weighting (HAW), который решает проблему редких и неинформативных сигналов обратной связи в процессе обучения. arXiv · Модели и релизы Исследование: VLA-модели плохо работают с неанглийскими языками Недавнее исследование, опубликованное на arXiv, раскрывает значительный пробел в способности Vision-Language-Action (VLA) моделей работать с языками, отличными от английского. Эти модели, которые демонстрируют многообещающие возможности в обучении универсальных политик роботов на основе мультимодальных данных, в основном обучаются и оцениваются на английских инструкциях. Это оставляет их способность понимать и выполнять команды на других языках практически неизученной. arXiv · Машинное обучение Модельно-ориентированный подход к созданию сред для обучения с подкреплением Исследователи представили новый подход к разработке виртуальных сред, предназначенных для обучения агентов с подкреплением (RL). Традиционно создание таких систем требует значительных затрат времени, так как для успешной сходимости алгоритмов агентам необходимо тренироваться в множестве схожих, но вариативных условий. Авторы работы предлагают использовать модельно-ориентированную методологию, которая позволяет автоматизировать генерацию семейств сред, сохраняя при этом их функциональную близость. arXiv · Память и RAG ReGrad: постобучение без потери знаний Исследователи из MIT и Google Research предложили новый подход к постобучению моделей, который решает проблему накопления весового дрейфа. В работе «Retrievable Gradients: Continual Post-Training Without Cumulative Weight Drift» авторы вводят концепцию ReGrad — метода, позволяющего моделям обновляться после развертывания без потери ранее усвоенных знаний. arXiv · Машинное обучение Новый метод обучения с подкреплением для задач с разреженными наградами Исследователи представили метод Success Visitation Matching, решающий проблему неэффективного обучения моделей в условиях разреженных наград. В стандартных сценариях обучения с подкреплением агент получает сигнал о полезности действия только при достижении конечной цели, что делает процесс поиска оптимальной стратегии крайне медленным и нестабильным. Новый подход позволяет модели лучше распределять кредит за промежуточные действия, опираясь на вероятность посещения состояний, ведущих к успеху. The Decoder · ИИ в бизнесе Nvidia и университеты США обучили роботов навыкам захвата через ИИ-агентов Исследователи из Nvidia, Университета Карнеги — Меллона и Калифорнийского университета в Беркли представили метод обучения робототехники с помощью автономных ИИ-агентов. Система использует возможности генеративного кода для самостоятельной корректировки движений роботов в реальных условиях. Вместо классического программирования каждого действия, агенты анализируют неудачные попытки и автоматически переписывают алгоритмы управления, чтобы повысить точность выполнения сложных манипуляций. arXiv · Машинное обучение Новый метод безопасного обучения с подкреплением для долгосрочных задач Исследователи представили новый подход к решению проблемы безопасного исследования в обучении с подкреплением (Reinforcement Learning). Основная сложность заключается в том, что агенты должны максимизировать производительность, строго соблюдая ограничения безопасности. В задачах с длинным горизонтом планирования текущие методы часто сталкиваются с накоплением ошибок оценки и ограниченными возможностями для поиска оптимальных стратегий, что делает их недостаточно надежными.

← Все материалы