Исследователи представили метод эффективного обнаружения объектов, объединяющий данные видимого спектра и тепловизионных камер. В отличие от стандартных подходов, требующих тяжелых архитектур и обработки всего изображения, новый алгоритм использует разреженную кросс-модальную фузию. Это позволяет сосредоточить вычислительные ресурсы на информативных областях, игнорируя однородные фоновые зоны, что значительно снижает нагрузку на систему без потери точности.

Традиционные системы RGB-T часто полагаются на двойные бэкбоны, которые обрабатывают каждый пиксель изображения, что делает их непригодными для работы на устройствах с ограниченной вычислительной мощностью. Авторы работы проанализировали структуру данных и выяснили, что значительная часть кадра — небо, земля или стены — не несет полезной информации для детекции. Использование разреженных вычислений позволяет системе динамически выбирать области для глубокого анализа.

Данный подход открывает возможности для внедрения продвинутых систем компьютерного зрения в автономные транспортные средства и охранные комплексы, работающие в условиях плохой видимости, таких как туман, дождь или ночное время. Снижение вычислительной сложности делает возможным развертывание таких моделей на периферийных устройствах (edge devices) в режиме реального времени.

Ключевые факты

  • Метод фокусируется на разреженной кросс-модальной фузии, исключая избыточную обработку фоновых областей.
  • Предложенная архитектура значительно снижает вычислительные затраты по сравнению с классическими моделями с двойными бэкбонами.
  • Технология повышает эффективность работы систем компьютерного зрения в сложных погодных и световых условиях.
  • Исследование направлено на оптимизацию инференса для задач детекции объектов в реальном времени.