arXiv · 15.06.2026 ·Память и RAG

Geometric Action Model для обучения политик роботов

Исследователи из MIT и Google DeepMind представили новый подход к обучению политик роботов, который учитывает геометрию физического мира. В статье, опубликованной на arXiv, авторы предлагают Geometric Action Model (GAM), который позволяет роботам не только следовать инструкциям пользователей, но и учитывать взаимодействие объектов, камер и действий робота в 3D пространстве.

Современные модели, такие как vision-language-action (VLA) и video world-action models (WAM), обладают сильным семантическим или временным приоритетами благодаря обучению на больших наборах данных. Однако они работают в основном с 2D изображениями или 2D-пространствами. GAM, в отличие от них, использует геометрические представления, что позволяет роботам лучше понимать физический мир и взаимодействовать с ним.

Авторы демонстрируют эффективность GAM на нескольких задачах, включая манипуляцию объектами и навигацию. Они показывают, что их модель превосходит существующие подходы в точности и надежности. Это важно для разработки ИИ-агентов, так как позволяет им лучше взаимодействовать с физическим миром, что может быть полезно в различных приложениях, от бытовых роботов до промышленных систем.

Для команды, работающей над ИИ-агентом Jarv, этот подход может быть полезен в разработке модулей, отвечающих за физическое взаимодействие. Использование геометрических моделей может значительно улучшить способность агента понимать и взаимодействовать с окружающей средой, что является ключевым для многих приложений.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Память и RAG LaWAM: моделирование будущего для роботов с помощью ИИ Исследователи из MIT и других ведущих университетов представили новый подход к созданию роботов, способных предсказывать последствия своих действий. В статье LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies авторы предлагают использовать модели, которые учитывают, как действия робота изменят окружающую среду. Это позволяет роботам принимать более осознанные решения, что критически важно для автономных агентов. arXiv · Исследования и наука GaP: новый метод обучения агентов для вариативной промышленной автоматизации Исследователи представили фреймворк GaP (Graph-as-Policy), объединяющий интерпретируемое программирование роботов с адаптивностью моделей обучения с подкреплением. Метод решает проблему вариативной автоматизации, где роботам приходится работать с объектами разной геометрии и положения. Подход позволяет агентам эффективно справляться с задачами, требующими высокой точности в непредсказуемых условиях, превосходя традиционные методы обучения без моделей. arXiv · Исследования и наука G3VLA: новый подход к пространственному восприятию в робототехнике Исследователи представили архитектуру G3VLA, которая внедряет геометрические индуктивные смещения в модели Vision-Language-Action (VLA). В отличие от стандартных моделей, привязанных к 2D-координатам изображений, G3VLA использует калиброванную геометрию камер робота. Это позволяет системе эффективно объединять данные с нескольких камер, обеспечивая точное понимание 3D-пространства, необходимое для выполнения сложных манипуляционных задач в реальных условиях. arXiv · Машинное обучение Новый метод обучения роботов через использование априорных знаний о движении Исследователи представили метод обучения роботов, который решает проблему нехватки физических навыков у моделей Vision-Language-Action (VLA). Вместо обучения управлению движением с нуля, авторы внедрили механизм априорных знаний об действиях (action priors). Это позволяет модели эффективнее переносить навыки между различными типами робототехнических платформ, значительно ускоряя процесс адаптации к новым задачам манипуляции объектами. MarkTechPost · Инфраструктура для агентов Ant Group представила LingBot-VA 2.0: фундаментальную модель для физического ИИ Подразделение Robbyant компании Ant Group выпустило LingBot-VA 2.0 — специализированную модель для управления робототехникой. В отличие от решений на базе генеративного видео, эта архитектура с нуля спроектирована для воплощенного ИИ. Система использует причинно-следственное мышление для прогнозирования состояний среды и обеспечивает высокую частоту управления, что критически важно для автономных физических агентов в реальном времени. arXiv · Исследования и наука Исследование масштабируемости базовых моделей поведения для роботов-гуманоидов Исследователи представили анализ масштабируемости базовых моделей поведения (Behavior Foundation Models, BFM) для управления роботами-гуманоидами. Работа доказывает, что использование крупномасштабных наборов данных о движениях позволяет значительно улучшить координацию всего тела робота и повысить точность реакций в реальном времени, что является критическим фактором для создания универсальных воплощенных ИИ-агентов, способных эффективно адаптироваться к сложным и меняющимся условиям окружающей среды. AI News & Artificial Intelligence | TechCrunch · Машинное обучение Видеоигры как новый стандарт обучающих данных для ИИ Разработчики ИИ всё чаще обращаются к видеоиграм как к источнику данных для обучения моделей, стремящихся к общему искусственному интеллекту (AGI). В отличие от текстовых массивов интернета, игровые среды позволяют моделям усваивать законы физики, причинно-следственные связи и принципы навигации в пространстве, что критически важно для создания систем, способных эффективно взаимодействовать с реальным миром. NVIDIA Technical Blog · Инфраструктура для агентов NVIDIA представила пайплайн для разработки ИИ-политик гуманоидных роботов через Isaac GR00T NVIDIA выпустила комплексный стек для обучения гуманоидных роботов, объединяющий симуляцию Isaac Sim и платформу GR00T. Решение позволяет разработчикам создавать end-to-end политики управления, используя обучение с подкреплением и имитационное обучение. Инструментарий автоматизирует перенос навыков из виртуальной среды в физические системы, сокращая цикл разработки специализированных движений и сложных манипуляций для робототехники нового поколения. AI News & Artificial Intelligence | TechCrunch · Машинное обучение General Intuition использует данные видеоигр для обучения роботов Стартап General Intuition разрабатывает фундаментальные модели для физического ИИ, используя огромные массивы данных из видеоигр. Компания стремится сократить зависимость робототехники от дорогостоящего сбора данных в реальном мире, обучая системы на симулированных средах. Такой подход призван ускорить создание универсальных роботов, способных эффективно обучаться сложным манипуляциям с минимальным количеством физических испытаний. The latest research from Google · Память и RAG Исследование Google: как обучить ИИ разумно рассуждать Исследователи Google представили новый подход к обучению языковых моделей разумному рассуждению на основе байесовских принципов. В статье, опубликованной на официальном блоге Google Research, описывается метод, который позволяет моделям лучше обрабатывать вероятностные данные и принимать решения в условиях неопределенности. Это особенно важно для разработки ИИ-агентов, которые должны работать в динамических и сложных средах, где точность и логичность рассуждений критически важны.

← Все материалы