Исследователи представили метод UNIEGO, направленный на решение проблемы ограниченного обзора в эгоцентрических видео, снятых с носимых камер. Основная сложность таких данных заключается в узком угле обзора, единственной модальности и зависимости от конкретной модели, что не позволяет полноценно интерпретировать человеческие действия. Авторы работы предлагают использовать прокси-модели в качестве посредников для объединения знаний из различных источников.

Метод позволяет интегрировать информацию из разных точек зрения, мультимодальных данных и различных фундаментальных моделей в единое представление. Такой подход обеспечивает более глубокое понимание контекста действий, сохраняя при этом возможность развертывания системы на устройствах с ограниченными вычислительными ресурсами. Использование прокси-моделей выступает связующим звеном, которое агрегирует разрозненные признаки в компактный и информативный вектор.

Результаты исследования показывают, что предложенная архитектура значительно повышает точность распознавания действий в эгоцентрических сценариях по сравнению с традиционными методами обучения. Разработка открывает новые возможности для создания систем компьютерного зрения, способных эффективно работать в условиях динамичной среды и ограниченного обзора, характерных для носимых устройств и систем дополненной реальности.