Исследователи представили метод эффективного обнаружения объектов, объединяющий данные видимого спектра и тепловизионных камер. В отличие от стандартных подходов, требующих тяжелых архитектур и обработки всего изображения, новый алгоритм использует разреженную кросс-модальную фузию. Это позволяет сосредоточить вычислительные ресурсы на информативных областях, игнорируя однородные фоновые зоны, что значительно снижает нагрузку на систему без потери точности.
Традиционные системы RGB-T часто полагаются на двойные бэкбоны, которые обрабатывают каждый пиксель изображения, что делает их непригодными для работы на устройствах с ограниченной вычислительной мощностью. Авторы работы проанализировали структуру данных и выяснили, что значительная часть кадра — небо, земля или стены — не несет полезной информации для детекции. Использование разреженных вычислений позволяет системе динамически выбирать области для глубокого анализа.
Данный подход открывает возможности для внедрения продвинутых систем компьютерного зрения в автономные транспортные средства и охранные комплексы, работающие в условиях плохой видимости, таких как туман, дождь или ночное время. Снижение вычислительной сложности делает возможным развертывание таких моделей на периферийных устройствах (edge devices) в режиме реального времени.
Ключевые факты
- Метод фокусируется на разреженной кросс-модальной фузии, исключая избыточную обработку фоновых областей.
- Предложенная архитектура значительно снижает вычислительные затраты по сравнению с классическими моделями с двойными бэкбонами.
- Технология повышает эффективность работы систем компьютерного зрения в сложных погодных и световых условиях.
- Исследование направлено на оптимизацию инференса для задач детекции объектов в реальном времени.