Исследователи из MIT и Google DeepMind представили новый подход к обучению политик роботов, который учитывает геометрию физического мира. В статье, опубликованной на arXiv, авторы предлагают Geometric Action Model (GAM), который позволяет роботам не только следовать инструкциям пользователей, но и учитывать взаимодействие объектов, камер и действий робота в 3D пространстве.
Современные модели, такие как vision-language-action (VLA) и video world-action models (WAM), обладают сильным семантическим или временным приоритетами благодаря обучению на больших наборах данных. Однако они работают в основном с 2D изображениями или 2D-пространствами. GAM, в отличие от них, использует геометрические представления, что позволяет роботам лучше понимать физический мир и взаимодействовать с ним.
Авторы демонстрируют эффективность GAM на нескольких задачах, включая манипуляцию объектами и навигацию. Они показывают, что их модель превосходит существующие подходы в точности и надежности. Это важно для разработки ИИ-агентов, так как позволяет им лучше взаимодействовать с физическим миром, что может быть полезно в различных приложениях, от бытовых роботов до промышленных систем.
Для команды, работающей над ИИ-агентом Jarv, этот подход может быть полезен в разработке модулей, отвечающих за физическое взаимодействие. Использование геометрических моделей может значительно улучшить способность агента понимать и взаимодействовать с окружающей средой, что является ключевым для многих приложений.