Исследователи представили архитектуру для создания омнимадальных агентов, способных объединять работу с цифровыми инструментами и физическое взаимодействие с окружением. Система решает проблему фрагментации навыков, интегрируя планирование на базе VLM с механизмами автономного восстановления после сбоев, что критически важно для долгосрочной работы агентов в неструктурированных бытовых и производственных условиях без постоянного вмешательства человека.

Современные агентные системы часто разделяют кибер-задачи, такие как вызов API или управление IoT-устройствами, и физические действия, включая навигацию и манипуляцию объектами. Новый фреймворк предлагает унифицированную модель оркестрации, которая позволяет агенту переключаться между этими доменами в рамках единого цикла планирования. Это устраняет разрывы в логике, возникающие при переходе от обработки данных к выполнению действий в реальном пространстве.

Особое внимание в работе уделено устойчивости к ошибкам. В условиях реального мира физические действия неизбежно приводят к неудачам — от неточного захвата предмета до блокировки пути. Предложенный подход внедряет протоколы самодиагностики и автоматического восстановления, позволяя агенту оценивать состояние среды после сбоя и корректировать стратегию выполнения задачи без необходимости перезапуска всей цепочки действий.

Ключевые факты

  • Разработана унифицированная архитектура для интеграции кибер-инструментов (API, IoT) и физических навыков (манипуляция, навигация).
  • Внедрена система автономного восстановления, позволяющая агентам самостоятельно исправлять ошибки при взаимодействии с физическими объектами.
  • Решена проблема «изолированных навыков», характерная для текущих VLM-планировщиков, неспособных эффективно связывать цифровые и физические действия.
  • Фреймворк ориентирован на обеспечение долгосрочной автономности агентов в неструктурированных средах, где риск сбоев значительно выше, чем в контролируемых лабораторных условиях.