Исследователи представили CoFL-S — фреймворк для навигации роботов, который связывает высокоуровневые языковые команды с низкоуровневым управлением движением. Система предсказывает векторные поля потоков в локальном секторе обзора робота, что позволяет точнее интерпретировать инструкции и выполнять маневры в динамических пространствах, преодолевая ограничения традиционных методов, сфокусированных только на глобальном планировании или семантическом анализе.

В современных задачах Vision-Language Navigation (VLN) основной акцент часто делается на декомпозиции инструкций и построении глобальных карт памяти. Однако реализация конкретных действий остается «узким местом». CoFL-S решает эту проблему, используя пространственно-запрашиваемые поля потоков (Spatially Queryable Sector Flow Fields). Это позволяет роботу не просто понимать цель, но и непрерывно корректировать траекторию движения в зависимости от визуальных данных, поступающих в реальном времени.

Подход объединяет понимание естественного языка с геометрическим представлением пространства. Вместо того чтобы полагаться на дискретные точки навигации, система генерирует непрерывное поле, которое направляет движение робота в соответствии с заданным контекстом. Такой метод значительно повышает плавность и точность перемещения в условиях, где требуется сложная координация между текстовым описанием задачи и физическим окружением.

Ключевые факты

  • CoFL-S фокусируется на низкоуровневом представлении действий, дополняя существующие методы высокоуровневого планирования.
  • Система использует предсказание языково-обусловленных полей потоков (flow fields) для локальной навигации в пределах видимого сектора.
  • Метод позволяет роботу динамически интерпретировать инструкции в процессе движения, минимизируя ошибки при выполнении сложных команд.
  • Исследование направлено на улучшение взаимодействия между визуальными сенсорами и языковыми моделями в робототехнике.