Исследователи представили FlexViT — специализированную архитектуру ускорителя на базе FPGA, предназначенную для эффективного запуска Vision Transformer (ViT) моделей на периферийных устройствах. Решение решает проблему высокой вычислительной сложности и неоднородности гибридных моделей, сочетающих полносвязные и сверточные слои, обеспечивая гибкую обработку тензоров с переменными формами и повышая производительность инференса в условиях ограниченных ресурсов.

Развертывание моделей ViT на edge-платформах традиционно затруднено из-за их архитектурной специфики. Современные гибридные модели требуют высокой адаптивности аппаратного обеспечения, так как стандартные ускорители часто не справляются с динамическим изменением размерности данных, характерным для трансформеров. FlexViT оптимизирует этот процесс, минимизируя задержки и энергопотребление при выполнении сложных операций внимания и свертки.

Архитектура FlexViT включает в себя перестраиваемые вычислительные блоки, которые позволяют динамически перераспределять ресурсы в зависимости от структуры конкретного слоя модели. Это позволяет достичь баланса между пропускной способностью и аппаратными затратами, что критически важно для систем компьютерного зрения, работающих в реальном времени на автономных устройствах.

Ключевые факты

  • FlexViT разработан для преодоления неоднородности гибридных архитектур ViT, включающих как сверточные, так и полносвязные слои.
  • Основной фокус решения направлен на оптимизацию обработки тензоров с вариативными формами, что является узким местом для классических FPGA-ускорителей.
  • Система ориентирована на edge-платформы, где критически важны энергоэффективность и низкая задержка при выполнении задач машинного зрения.
  • Предложенный метод позволяет повысить общую эффективность инференса за счет гибкой конфигурации вычислительных ресурсов под конкретные слои нейросети.