Исследователи представили OmniAgent — архитектуру для анализа видео, которая отходит от традиционной модели «пассивного просмотра». В отличие от существующих систем, которые обрабатывают все кадры видеоряда равномерно, что приводит к линейному росту вычислительных затрат при увеличении длительности записи, новый метод имитирует активное восприятие. Система самостоятельно выбирает наиболее информативные фрагменты для анализа в зависимости от поставленного запроса.

В основе OmniAgent лежит принцип нативного омнимадального понимания, позволяющий модели взаимодействовать с видеопотоком как с динамической средой. Вместо предварительного сканирования всего контента, агент фокусируется на ключевых визуальных и аудиоданных, необходимых для решения конкретной задачи. Такой подход существенно снижает нагрузку на вычислительные ресурсы, так как стоимость обработки контекста перестает напрямую зависеть от общей продолжительности видео.

Разработка решает проблему масштабируемости, с которой сталкиваются современные мультимодальные модели при работе с длинными видеофайлами. Авторы метода утверждают, что интеграция активного восприятия в процесс рассуждения позволяет системе эффективнее справляться со сложными запросами, требующими анализа временных зависимостей. Данный подход открывает возможности для более экономичного и точного внедрения ИИ в системы видеонаблюдения, архивирования медиаконтента и автоматизированного анализа видеопотоков в реальном времени.