arXiv · 14.06.2026 ·Память и RAG

LaWAM: моделирование будущего для роботов с помощью ИИ

Исследователи из MIT и других ведущих университетов представили новый подход к созданию роботов, способных предсказывать последствия своих действий. В статье LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies авторы предлагают использовать модели, которые учитывают, как действия робота изменят окружающую среду. Это позволяет роботам принимать более осознанные решения, что критически важно для автономных агентов.

Традиционные Vision-Language-Action (VLA) модели, которые используют предварительно обученные языковые и визуальные данные, часто не учитывают динамику изменений в окружающей среде. World-Action Models (WAM) решают эту проблему, предсказывая будущие состояния сцены после выполнения действий. Однако существующие методы требуют значительных вычислительных ресурсов для генерации видео, что делает их менее практичными.

LaWAM предлагает более эффективный подход, используя скрытые (latent) представления для моделирования будущих состояний. Это позволяет роботам быстрее и точнее предсказывать последствия своих действий, что особенно важно для автономных агентов, таких как Jarv. В статье показано, что LaWAM значительно улучшает производительность роботов в задачах, требующих понимания динамики окружающей среды.

Для разработчиков ИИ-агентов этот подход может стать важным инструментом. Возможность предсказывать изменения в окружающей среде позволяет создавать более автономных и эффективных агентов, способных работать в динамических условиях. Это особенно актуально для роботов, которые должны взаимодействовать с физическим миром, но также может быть полезно для виртуальных агентов, работающих в сложных и изменяющихся средах.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

NVIDIA Technical Blog · Память и RAG World-Action Models: от воображения к действию NVIDIA представила концепцию World-Action Models (WAM), новых моделей, которые сочетают в себе возможности визуально-языковых моделей (VLM) с возможностью выполнения действий. Эти модели начинают с предобученного VLM-основания и адаптируют его для выполнения конкретных задач, что делает их перспективными для создания ИИ-агентов, способных не только понимать, но и взаимодействовать с окружающим миром. arXiv · Память и RAG Geometric Action Model для обучения политик роботов Исследователи из MIT и Google DeepMind представили новый подход к обучению политик роботов, который учитывает геометрию физического мира. В статье, опубликованной на arXiv, авторы предлагают Geometric Action Model (GAM), который позволяет роботам не только следовать инструкциям пользователей, но и учитывать взаимодействие объектов, камер и действий робота в 3D пространстве. arXiv · Исследования и наука Исследование BadWAM: почему модели мира ошибаются в действиях Исследователи проанализировали уязвимости World-Action Models (WAMs) — систем, объединяющих прогнозирование состояния среды с генерацией действий для робототехники. Несмотря на способность моделей точно предсказывать будущие состояния мира, они часто совершают критические ошибки при выполнении физических действий. Авторы работы демонстрируют, что высокая точность «воображения» не гарантирует корректного управления, создавая ложное ощущение безопасности и интерпретируемости систем. arXiv · Исследования и наука DLAM: новый метод обучения VLA-моделей на видео без разметки действий Исследователи представили метод DLAM (Distributional Latent Actions), позволяющий эффективно обучать Vision-Language-Action модели, используя видео без разметки действий. В условиях дефицита данных для робототехники подход позволяет извлекать полезные закономерности из обширных массивов видеоданных, обеспечивая при этом необходимую временную согласованность и структуру для генерации управляющих команд роботам в связке с текстовыми инструкциями. arXiv · Машинное обучение Новый метод обучения роботов через использование априорных знаний о движении Исследователи представили метод обучения роботов, который решает проблему нехватки физических навыков у моделей Vision-Language-Action (VLA). Вместо обучения управлению движением с нуля, авторы внедрили механизм априорных знаний об действиях (action priors). Это позволяет модели эффективнее переносить навыки между различными типами робототехнических платформ, значительно ускоряя процесс адаптации к новым задачам манипуляции объектами. arXiv · Машинное обучение Latent Action Models: новый метод обучения агентов в визуально сложных средах Исследователи представили Latent Action Models (LAMs) — новый подход к обучению прокси-действий на основе визуальных переходов. Метод позволяет агентам выделять значимые действия из «шумных» сцен, где движения объекта смешиваются с динамикой камеры и фоновыми изменениями. Это решает проблему неоднозначности данных, позволяя эффективно обучаться без необходимости в прямой разметке действий в сложных визуальных средах. arXiv · Исследования и наука Latent Memory Palace: новый подход к адаптивному рассуждению в задачах управления Исследователи представили метод Latent Memory Palace, который переносит способности LLM к адаптивному рассуждению в область непрерывного управления робототехникой. В отличие от стандартных моделей, работающих в языковом пространстве, этот подход использует вариационный вывод для создания скрытых представлений, что позволяет агентам гибко переключаться между мгновенными реакциями и длительным планированием действий в сложных динамических средах. Hacker News · Исследования и наука Развитие концепции мировых моделей в ИИ Исследователи активно работают над созданием «мировых моделей» (world models) для искусственного интеллекта, которые позволяют системам понимать физические законы и причинно-следственные связи окружающего мира. В отличие от стандартных LLM, предсказывающих следующий токен, такие модели обучаются моделировать динамику среды, что является ключевым шагом к созданию более автономных и способных к рассуждению ИИ-агентов. arXiv · Память и RAG Как улучшить надёжность ИИ-агентов в робототехнике Исследователи из MIT и других ведущих университетов предложили новый подход к улучшению надёжности ИИ-агентов в робототехнике. В своей работе, опубликованной на arXiv, они рассматривают проблему обнаружения аномалий в поведении роботов, управляемых генеративными моделями. MarkTechPost · Инфраструктура для агентов Ant Group представила LingBot-VA 2.0: фундаментальную модель для физического ИИ Подразделение Robbyant компании Ant Group выпустило LingBot-VA 2.0 — специализированную модель для управления робототехникой. В отличие от решений на базе генеративного видео, эта архитектура с нуля спроектирована для воплощенного ИИ. Система использует причинно-следственное мышление для прогнозирования состояний среды и обеспечивает высокую частоту управления, что критически важно для автономных физических агентов в реальном времени.

← Все материалы