NVIDIA представила концепцию World-Action Models (WAM), новых моделей, которые сочетают в себе возможности визуально-языковых моделей (VLM) с возможностью выполнения действий. Эти модели начинают с предобученного VLM-основания и адаптируют его для выполнения конкретных задач, что делает их перспективными для создания ИИ-агентов, способных не только понимать, но и взаимодействовать с окружающим миром.
Ключевая идея WAM заключается в том, что они могут быть обобщены для выполнения широкого спектра задач, включая навигацию, манипуляцию объектами и взаимодействие с пользователями. Это достигается за счет использования предобученных моделей, которые уже обладают знаниями о мире, и их тонкой настройки для выполнения конкретных действий. Такой подход позволяет значительно сократить время и ресурсы, необходимые для обучения моделей с нуля.
Для разработчиков ИИ-агентов, таких как Jarv, WAM представляют собой важный шаг вперед. Они предлагают готовые решения для интеграции визуального и языкового понимания с возможностью выполнения действий, что может значительно улучшить функциональность агентов. Например, WAM могут быть использованы для создания агентов, которые могут не только отвечать на запросы пользователей, но и выполнять физические действия, такие как перемещение объектов или навигация в пространстве.
NVIDIA также подчеркивает, что WAM могут быть использованы в различных областях, включая робототехнику, автоматизацию и взаимодействие с пользователями. Это делает их универсальным инструментом для создания интеллектуальных систем, способных выполнять сложные задачи. Для команды Jarv это означает возможность интеграции WAM в свои агентские системы, что может значительно расширить их функциональные возможности и улучшить взаимодействие с пользователями.
