Исследователи из MIT и других ведущих университетов представили новый подход к созданию роботов, способных предсказывать последствия своих действий. В статье LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies авторы предлагают использовать модели, которые учитывают, как действия робота изменят окружающую среду. Это позволяет роботам принимать более осознанные решения, что критически важно для автономных агентов.
Традиционные Vision-Language-Action (VLA) модели, которые используют предварительно обученные языковые и визуальные данные, часто не учитывают динамику изменений в окружающей среде. World-Action Models (WAM) решают эту проблему, предсказывая будущие состояния сцены после выполнения действий. Однако существующие методы требуют значительных вычислительных ресурсов для генерации видео, что делает их менее практичными.
LaWAM предлагает более эффективный подход, используя скрытые (latent) представления для моделирования будущих состояний. Это позволяет роботам быстрее и точнее предсказывать последствия своих действий, что особенно важно для автономных агентов, таких как Jarv. В статье показано, что LaWAM значительно улучшает производительность роботов в задачах, требующих понимания динамики окружающей среды.
Для разработчиков ИИ-агентов этот подход может стать важным инструментом. Возможность предсказывать изменения в окружающей среде позволяет создавать более автономных и эффективных агентов, способных работать в динамических условиях. Это особенно актуально для роботов, которые должны взаимодействовать с физическим миром, но также может быть полезно для виртуальных агентов, работающих в сложных и изменяющихся средах.