Исследователи представили LIME — метод обучения роботов управлению камерой на основе текстовых намерений пользователя. Система позволяет автономным устройствам динамически корректировать угол обзора для осмотра объектов или устранения окклюзий, опираясь на эгоцентрические видеоданные. Это решение закрывает разрыв между навигационными командами и манипуляционными действиями, обеспечивая более естественное взаимодействие робота с окружающим пространством через понимание контекста задачи.
Традиционные подходы в робототехнике фокусируются либо на перемещении базы робота, либо на выполнении конкретных манипуляций. Однако для эффективного взаимодействия с миром робот должен активно управлять своим «взглядом». LIME использует обучение с подкреплением и анализ видеопотока, чтобы предсказывать оптимальные движения камеры, которые соответствуют заданным пользователем целям, даже если объект изначально скрыт или находится вне поля зрения.
Разработка опирается на архитектуру, способную интерпретировать естественный язык и сопоставлять его с визуальными изменениями в реальном времени. В отличие от стандартных моделей, обучаемых на статичных кадрах, LIME учитывает динамику движения камеры, что критически важно для мобильных платформ, работающих в неструктурированных средах. Это позволяет роботу самостоятельно принимать решения о том, как лучше «посмотреть» на объект перед началом выполнения сложной задачи.
Ключевые факты
- LIME (Learning Intent-aware Camera Motion) специализируется на управлении камерой робота на основе текстовых инструкций.
- Метод использует эгоцентрические видеоданные для обучения политике движения, ориентированной на выполнение намерений пользователя.
- Система решает проблему активного поиска объектов и устранения визуальных препятствий (окклюзий) в автономном режиме.
- Технология интегрируется в цепочку действий робота, дополняя существующие алгоритмы навигации и манипуляции.