arXiv · 18.06.2026 ·Исследования и наука

UNIEGO: новый подход к обучению представлений в эгоцентрических видео

Исследователи представили метод UNIEGO, направленный на решение проблемы ограниченного обзора в эгоцентрических видео, снятых с носимых камер. Основная сложность таких данных заключается в узком угле обзора, единственной модальности и зависимости от конкретной модели, что не позволяет полноценно интерпретировать человеческие действия. Авторы работы предлагают использовать прокси-модели в качестве посредников для объединения знаний из различных источников.

Метод позволяет интегрировать информацию из разных точек зрения, мультимодальных данных и различных фундаментальных моделей в единое представление. Такой подход обеспечивает более глубокое понимание контекста действий, сохраняя при этом возможность развертывания системы на устройствах с ограниченными вычислительными ресурсами. Использование прокси-моделей выступает связующим звеном, которое агрегирует разрозненные признаки в компактный и информативный вектор.

Результаты исследования показывают, что предложенная архитектура значительно повышает точность распознавания действий в эгоцентрических сценариях по сравнению с традиционными методами обучения. Разработка открывает новые возможности для создания систем компьютерного зрения, способных эффективно работать в условиях динамичной среды и ограниченного обзора, характерных для носимых устройств и систем дополненной реальности.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

The Decoder · Исследования и наука Google DeepMind: видеогенераторы содержат универсальные модели мира Исследователи Google DeepMind представили проект GenCeption, доказывающий, что современные видеогенераторы обладают глубоким пониманием физики и структуры окружающего мира. Используя эти модели для классических задач компьютерного зрения, таких как оценка глубины и сегментация объектов, разработчики достигли результатов уровня SOTA, затратив при этом значительно меньше данных для обучения, чем специализированные системы машинного зрения. arXiv · Исследования и наука Оптимизация обработки видео в мультимодальных моделях через разреженную адаптацию Исследователи представили метод адаптации мультимодальных LLM для анализа видео, решающий проблему «визуального узкого горлышка». Вместо обработки всех кадров, что вычислительно затратно, предложенный подход позволяет эффективно работать с разреженными последовательностями из 8–16 кадров. Это обеспечивает точную пространственно-временную локализацию событий, сохраняя высокую производительность моделей при масштабировании на видеоплатформах с огромным потоком контента. arXiv · Исследования и наука OmniAgent: новый подход к анализу длинных видео через активное восприятие Исследователи представили OmniAgent — архитектуру для анализа видео, которая отходит от традиционной модели «пассивного просмотра». В отличие от существующих систем, которые обрабатывают все кадры видеоряда равномерно, что приводит к линейному росту вычислительных затрат при увеличении длительности записи, новый метод имитирует активное восприятие. Система самостоятельно выбирает наиболее информативные фрагменты для анализа в зависимости от поставленного запроса. arXiv · Машинное обучение Новый метод обучения мультимодальных моделей через разделение восприятия и рассуждения Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации. Hacker News · Исследования и наука Реконструкция визуальных образов по активности мозга с помощью ИИ Исследователи из Принстонского университета представили метод реконструкции визуальных образов, которые видит человек, основываясь исключительно на данных активности его мозга. Используя нейросетевые архитектуры для анализа сигналов МЭГ, ученым удалось с высокой точностью восстановить динамические сцены, что открывает новые возможности в нейроинтерфейсах и понимании механизмов человеческого восприятия через глубокое обучение. arXiv · Исследования и наука Object-centric LeJEPA: новый подход к обучению визуальных энкодеров Исследователи представили Object-centric LeJEPA — метод обучения визуальных энкодеров, который фокусируется на отдельных объектах вместо анализа сцены целиком. Такой подход позволяет моделям достигать высокой эффективности при меньшем объеме обучающих данных. Технология решает проблему избыточности традиционных методов самообучения, предлагая более точное представление визуальных признаков для последующих прикладных задач компьютерного зрения. arXiv · Исследования и наука Новый подход к интерпретируемости видео-моделей через визуальное обоснование Исследователи представили метод Evidence-Backed Video Question Answering, решающий проблему «черного ящика» в современных видео-LLM. В отличие от стандартных моделей, которые выдают только текстовые ответы, новая архитектура обеспечивает верифицируемое визуальное обоснование. Это позволяет системе точно отслеживать динамические объекты в видео, включая случаи перекрытия и сложные деформации, что значительно повышает прозрачность и надежность работы ИИ с видеоконтентом. arXiv · Исследования и наука EgoGenesis: симулятор эгоцентрических видео для обучения embodied AI Исследователи представили EgoGenesis — систему для синтеза высококачественных эгоцентрических видео, предназначенную для обучения embodied AI. Модель решает проблему дефицита реальных данных о манипуляциях с объектами, позволяя генерировать разнообразные сценарии действий. Использование онлайн-памяти и специализированного позиционного кодирования Action-3D RoPE обеспечивает высокую точность и управляемость видеопотока, что критически важно для тренировки робототехнических систем в виртуальной среде. arXiv · Исследования и наука Новый метод стабилизации генерации длинных видео в диффузионных моделях Исследователи представили метод регуляризации видеопредставлений, решающий проблему накопления ошибок при авторегрессионной генерации видео. Технология позволяет значительно повысить качество кадров при создании длинных последовательностей, что критически важно для симуляций в робототехнике и беспилотном транспорте. Новый подход минимизирует деградацию визуальных данных, возникающую при использовании стандартных методов скользящего окна в диффузионных моделях. Hacker News · Оценка и бенчмарки Метод Лос-Аламосской лаборатории для выявления галлюцинаций в мультимодальных моделях Исследователи из Лос-Аламосской национальной лаборатории представили новый подход к диагностике ошибок в работе мультимодальных моделей, объединяющих зрение и язык. Основная проблема таких систем заключается в склонности к «галлюцинациям» — генерации описаний объектов или событий, которых нет на исходном изображении. Разработанный метод позволяет более точно отслеживать соответствие между визуальными данными и текстовым выводом модели.

← Все материалы