NVIDIA Technical Blog · 15.06.2026 ·Память и RAG

World-Action Models: от воображения к действию

NVIDIA представила концепцию World-Action Models (WAM), новых моделей, которые сочетают в себе возможности визуально-языковых моделей (VLM) с возможностью выполнения действий. Эти модели начинают с предобученного VLM-основания и адаптируют его для выполнения конкретных задач, что делает их перспективными для создания ИИ-агентов, способных не только понимать, но и взаимодействовать с окружающим миром.

Ключевая идея WAM заключается в том, что они могут быть обобщены для выполнения широкого спектра задач, включая навигацию, манипуляцию объектами и взаимодействие с пользователями. Это достигается за счет использования предобученных моделей, которые уже обладают знаниями о мире, и их тонкой настройки для выполнения конкретных действий. Такой подход позволяет значительно сократить время и ресурсы, необходимые для обучения моделей с нуля.

Для разработчиков ИИ-агентов, таких как Jarv, WAM представляют собой важный шаг вперед. Они предлагают готовые решения для интеграции визуального и языкового понимания с возможностью выполнения действий, что может значительно улучшить функциональность агентов. Например, WAM могут быть использованы для создания агентов, которые могут не только отвечать на запросы пользователей, но и выполнять физические действия, такие как перемещение объектов или навигация в пространстве.

NVIDIA также подчеркивает, что WAM могут быть использованы в различных областях, включая робототехнику, автоматизацию и взаимодействие с пользователями. Это делает их универсальным инструментом для создания интеллектуальных систем, способных выполнять сложные задачи. Для команды Jarv это означает возможность интеграции WAM в свои агентские системы, что может значительно расширить их функциональные возможности и улучшить взаимодействие с пользователями.

Источник: NVIDIA Technical Blog

Обсудить с ИИ

Похожие материалы

arXiv · Память и RAG LaWAM: моделирование будущего для роботов с помощью ИИ Исследователи из MIT и других ведущих университетов представили новый подход к созданию роботов, способных предсказывать последствия своих действий. В статье LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies авторы предлагают использовать модели, которые учитывают, как действия робота изменят окружающую среду. Это позволяет роботам принимать более осознанные решения, что критически важно для автономных агентов. Hacker News · Модели и релизы Как мировые модели дают ИИ-агентам «первое лицо» В новом видео исследователи обсуждают концепцию мировых моделей (World Models) и их роль в формировании «первого лица» у ИИ-агентов. Мировые модели — это подход, при котором ИИ создает внутреннюю репрезентацию окружающего мира, что позволяет ему действовать более автономно и адаптивно. arXiv · Память и RAG LabVLA: ИИ-агенты для выполнения научных экспериментов Исследователи представили LabVLA — фреймворк, который позволяет ИИ-агентам не только анализировать научные данные и генерировать гипотезы, но и выполнять физические действия в лабораториях. Это важный шаг в интеграции ИИ в реальные научные процессы, где до сих пор требуется человеческое вмешательство. arXiv · Инфраструктура для агентов Qwen-AgentWorld: языковые модели как симуляторы среды для ИИ-агентов Исследователи представили Qwen-AgentWorld — новый подход к созданию ИИ-агентов, использующий языковые модели в качестве «мировых моделей» для предсказания динамики среды. Разработка позволяет агентам эффективнее планировать действия и рассуждать, моделируя последствия своих решений в виртуальном пространстве. Ключевым элементом системы стала специализированная модель Qwen-AgentWorld-35B-A3B, оптимизированная для симуляции агентных сред. NVIDIA Technical Blog · MCP и интеграции NVIDIA представляет сертифицированные навыки для ИИ-агентов NVIDIA анонсировала программу NVIDIA-Verified Agent Skills, направленную на обеспечение управления возможностями ИИ-агентов. Это инициатива призвана стандартизировать и сертифицировать навыки агентов, что позволит улучшить их безопасность, надежность и совместимость с различными платформами. NVIDIA Technical Blog · Оркестрация агентов Как добавить навык глубокого исследования в агентские фреймворки NVIDIA предложила способ расширить функциональность агентских фреймворков, таких как Claude Code, Codex и LangChain Deep Agents, за счёт добавления специализированного навыка глубокого исследования. Это позволяет агентам не только управлять сессиями и цепочками инструментов, но и выполнять сложные аналитические задачи, требующие глубокого понимания контекста и данных. NVIDIA Technical Blog · Инференс и железо Новые инструменты от Microsoft и NVIDIA для запуска ИИ-агентов на Windows Microsoft и NVIDIA представили новые инструменты, которые позволяют запускать ИИ-агентов на Windows ПК. Это важный шаг для разработчиков, так как ранее подобные решения требовали сложной настройки и мощного оборудования. NVIDIA Technical Blog · Инференс и железо Как платформа NVIDIA Vera Rubin решает проблему масштабирования агентного ИИ NVIDIA представила платформу Vera Rubin, которая направлена на решение ключевых проблем масштабирования агентного ИИ. Основная сложность заключается в неопределённости траекторий агентов, которые включают действия, наблюдения и взаимодействия с окружающей средой. Это делает традиционные методы инференса менее эффективными, так как агентский ИИ требует гибкости и адаптивности в реальном времени. NVIDIA Technical Blog · Инфраструктура для агентов NVIDIA представляет Hermes Agent и NemoClaw для саморазвивающихся агентов NVIDIA анонсировала новую инфраструктуру для развертывания саморазвивающихся ИИ-агентов, которая включает Hermes Agent и NVIDIA NemoClaw. Эта платформа предназначена для ускорения исследовательских процессов, синтеза данных и принятия решений на основе аналитики. NVIDIA Technical Blog · Модели и релизы NVIDIA Cosmos 3 для разработки физических моделей ИИ NVIDIA представила Cosmos 3 — фреймворк для создания физических моделей ИИ, которые могут понимать и взаимодействовать с реальным миром. Это особенно важно для роботов, автономных транспортных средств и умных пространств, где ИИ-агенты должны не только анализировать данные, но и принимать решения на основе физических закономерностей.

← Все материалы