Исследователи представили MVP-Nav — метод навигации для воплощенных ИИ-агентов, решающий проблему поиска объектов в условиях отсутствия данных о глубине. Система использует многослойные карты ценности, объединяя семантическое понимание пространства с геометрическими ограничениями. Это позволяет агентам эффективно ориентироваться в среде, полагаясь исключительно на RGB-изображения, что значительно снижает физическую неопределенность при движении к цели.

Традиционные подходы к навигации часто сталкиваются с разрывом между высокоуровневым семантическим анализом и физической реальностью. Модели, обучаемые методом end-to-end, нередко игнорируют пространственные препятствия, что приводит к ошибкам в планировании маршрута. MVP-Nav преодолевает этот барьер, внедряя промежуточный слой планирования, который сопоставляет визуальные семантические признаки с физическими свойствами окружения.

Архитектура метода позволяет агенту строить более точные траектории, минимизируя столкновения и повышая вероятность успешного достижения цели в незнакомых помещениях. Использование многослойного подхода обеспечивает баланс между поиском нужного объекта и безопасным перемещением, что критически важно для автономных роботов и домашних помощников, работающих в динамических условиях без специализированных сенсоров глубины.

Ключевые факты

  • MVP-Nav решает задачу Zero-shot Object Goal Navigation (ZSON) без использования данных о глубине.
  • Метод устраняет проблему семантико-физического рассогласования, характерную для end-to-end моделей.
  • Система внедряет многослойные карты ценности для интеграции геометрических ограничений в процесс планирования.
  • Решение повышает точность навигации агентов при работе с ограниченными визуальными данными (только RGB).