Исследователи представили DART-VLN — фреймворк для улучшения навигации ИИ-агентов в условиях частичной наблюдаемости. Система решает проблему накопления ошибок памяти и неэффективного поиска пути без необходимости дообучения моделей. Метод внедряет механизмы затухания устаревших данных и регуляризации циклов, что позволяет агентам точнее следовать текстовым инструкциям в визуальной среде, избегая зацикливания при выборе действий.
В основе подхода лежит концепция контроля во время инференса (test-time control). Агенты, использующие визуально-языковые модели, часто сталкиваются с тем, что исторические данные в памяти становятся неактуальными по мере перемещения в пространстве. DART-VLN динамически корректирует веса памяти, постепенно «забывая» устаревшие визуальные признаки, что снижает уровень шума при принятии решений. Это критически важно для автономных систем, работающих в динамических или сложных интерьерах.
Второй компонент системы направлен на борьбу с «петлями» — ситуациями, когда агент многократно возвращается в одну и ту же точку из-за неверной интерпретации локальных ориентиров. Регуляризация путей принудительно ограничивает повторное посещение узлов графа навигации, заставляя модель активнее исследовать новые области. Такой подход значительно повышает успешность выполнения задач (Success Rate) в стандартных бенчмарках для навигации по инструкциям.
Ключевые факты
- DART-VLN является training-free фреймворком, не требующим изменения весов базовой модели.
- Основные проблемы, решаемые системой: накопление «устаревших» данных в памяти и неэффективный локальный бэктрекинг.
- Механизм Memory Decay автоматически снижает влияние старых визуальных наблюдений при чтении из памяти.
- Anti-Loop Regularization предотвращает циклическое движение агента, ограничивая повторные переходы между уже посещенными локациями.
- Метод предназначен для улучшения работы агентов в задачах Vision-Language Navigation (VLN) с дискретным пространством действий.