Исследователи представили UniDrive — мультимодальную архитектуру, устраняющую противоречие между временным анализом и пространственной точностью в беспилотном транспорте. Модель объединяет визуальные данные с языковым пониманием, позволяя системе не только распознавать объекты, но и аргументированно оценивать дорожные риски, что критически важно для безопасности автономных систем при работе с мелкими или частично скрытыми препятствиями на дороге.

Существующие подходы к беспилотному вождению часто сталкиваются с проблемой выбора: либо высокая точность локализации объектов, либо глубокое понимание контекста сцены. Модели, работающие с одиночными кадрами или низким разрешением, часто игнорируют удаленные опасности, в то время как языковые модели могут давать общие описания без привязки к точным координатам. UniDrive решает эту задачу через унифицированный фреймворк, который синхронизирует пространственные признаки с логическими выводами.

Система использует механизмы граундинга для сопоставления текстовых описаний с конкретными областями на изображении. Это обеспечивает интерпретируемость: модель не просто классифицирует ситуацию, а указывает на конкретные объекты, создающие потенциальную угрозу. Такой подход повышает надежность принятия решений в динамических условиях, где требуется быстрая реакция на изменение дорожной обстановки.

Ключевые факты

  • UniDrive преодолевает фундаментальный компромисс между временным рассуждением и пространственной точностью в MLLM-моделях.
  • Фреймворк обеспечивает интерпретируемость, связывая языковые выводы с конкретными пространственными координатами объектов.
  • Решение направлено на минимизацию ошибок при обнаружении мелких, удаленных или частично перекрытых дорожных опасностей.
  • Архитектура предназначена для интеграции в системы автономного вождения, требующие высокого уровня ситуационной осведомленности.