arXiv · 30.06.2026 ·Инференс и железо

FlexViT: новый FPGA-ускоритель для Vision Transformers на периферийных устройствах

Исследователи представили FlexViT — специализированную архитектуру ускорителя на базе FPGA, предназначенную для эффективного запуска Vision Transformer (ViT) моделей на периферийных устройствах. Решение решает проблему высокой вычислительной сложности и неоднородности гибридных моделей, сочетающих полносвязные и сверточные слои, обеспечивая гибкую обработку тензоров с переменными формами и повышая производительность инференса в условиях ограниченных ресурсов.

Развертывание моделей ViT на edge-платформах традиционно затруднено из-за их архитектурной специфики. Современные гибридные модели требуют высокой адаптивности аппаратного обеспечения, так как стандартные ускорители часто не справляются с динамическим изменением размерности данных, характерным для трансформеров. FlexViT оптимизирует этот процесс, минимизируя задержки и энергопотребление при выполнении сложных операций внимания и свертки.

Архитектура FlexViT включает в себя перестраиваемые вычислительные блоки, которые позволяют динамически перераспределять ресурсы в зависимости от структуры конкретного слоя модели. Это позволяет достичь баланса между пропускной способностью и аппаратными затратами, что критически важно для систем компьютерного зрения, работающих в реальном времени на автономных устройствах.

Ключевые факты

FlexViT разработан для преодоления неоднородности гибридных архитектур ViT, включающих как сверточные, так и полносвязные слои.
Основной фокус решения направлен на оптимизацию обработки тензоров с вариативными формами, что является узким местом для классических FPGA-ускорителей.
Система ориентирована на edge-платформы, где критически важны энергоэффективность и низкая задержка при выполнении задач машинного зрения.
Предложенный метод позволяет повысить общую эффективность инференса за счет гибкой конфигурации вычислительных ресурсов под конкретные слои нейросети.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

GitHub · Инференс и железо Реализация архитектуры Transformer на уровне RTL для FPGA Проект gateGPT демонстрирует возможность переноса архитектуры трансформеров непосредственно на аппаратный уровень с использованием языка описания аппаратуры (RTL). Разработчикам удалось реализовать полноценную модель на базе FPGA Virtex-5, что позволяет выполнять вычисления без участия центрального процессора или специализированных GPU-ускорителей. Hacker News · Инференс и железо GateGPT: 56k токенов в секунду на FPGA Исследователи представили GateGPT — решение для ускоренного инференса трансформеров на FPGA. Система достигает скорости 56 000 токенов в секунду при частоте 80 МГц, используя кеш ключ-значение (KV cache). Это открывает новые возможности для развертывания больших языковых моделей на специализированном оборудовании. arXiv · Инференс и железо Оптимизация визуального инференса через проактивную маршрутизацию запросов Исследователи предложили метод повышения эффективности мультимодальных моделей при выполнении сложных визуальных задач. Система использует связку из компактной «черновой» модели и крупной целевой модели, применяя адаптивный механизм маршрутизации. В зависимости от сложности запроса, система автоматически определяет, какая модель должна обрабатывать данные, что позволяет сократить избыточные вычисления и ускорить процесс рассуждения. Hacker News · Инференс и железо Tensordyne ускоряет ИИ-инференс через переход к логарифмическим вычислениям Стартап Tensordyne представил технологию, которая радикально ускоряет инференс нейросетей за счет замены традиционных матричных умножений на операции в логарифмическом пространстве. Этот подход позволяет упростить аппаратную реализацию вычислений, снижая энергопотребление и требования к пропускной способности памяти, что критически важно для эффективного развертывания крупных языковых моделей на специализированном оборудовании. Hacker News · Инференс и железо Etched представила специализированные кластеры для инференса трансформеров Компания Etched анонсировала создание специализированных вычислительных кластеров, оптимизированных исключительно для инференса архитектуры Transformer. В отличие от универсальных GPU, новая инфраструктура использует ASIC-чипы Sohu, что позволяет достичь кратного прироста производительности и снижения задержек при работе с крупными языковыми моделями. Решение ориентировано на масштабируемые задачи инференса в промышленном секторе. arXiv · Инференс и железо Оптимизация INT8 вычислений для диффузионных трансформеров на потребительских GPU Исследователи из Ideogram представили новый подход к оптимизации инференса диффузионных трансформеров на потребительских GPU. В статье, опубликованной на arXiv, они показывают, что посттрейнинговая квантование в INT8 (W8A8) часто оказывается медленнее, чем альтернативы в FP8 и NF4, несмотря на ожидания. Это связано с тем, что в текущих реализациях веса и активации квантуются только для того, чтобы сразу же деквантоваться обратно в bf16 и выполнять матричное умножение в этом формате. arXiv · Исследования и наука Оптимизация гибридных моделей внимания для работы с длинным контекстом Исследователи представили новый метод оптимизации гибридных моделей внимания, повышающий эффективность обработки длинных контекстов. Вместо использования эвристических подходов для выбора слоев, авторы предложили алгоритмический способ определения того, какие слои должны сохранять полное внимание, а какие — заменяться на линейное. Это позволяет значительно снизить вычислительные затраты при сохранении высокой точности работы трансформеров. Hacker News · Инференс и железо Новый компилятор для Edge AI превосходит решения от Google и вендоров Компания DeepGate представила специализированный компилятор, предназначенный для оптимизации нейросетевых моделей при запуске на периферийных устройствах (Edge AI). Инструмент ориентирован на повышение производительности инференса и снижение энергопотребления, что является критическим фактором для работы ИИ вне облачных дата-центров. Разработчики заявляют, что их решение демонстрирует более высокую эффективность по сравнению с популярными стандартными инструментариями, включая проприетарные стеки от производителей аппаратного обеспечения и открытые решения от Google. arXiv · Машинное обучение Оптимизация дообучения Vision-Language-Action моделей Исследователи обнаружили, что для эффективной адаптации Vision-Language-Action (VLA) моделей к конкретным задачам робототехники не требуется задействовать все параметры архитектуры. Анализ показал, что значительная часть слоев в таких моделях избыточна при дообучении на специализированных наборах данных. Использование метода частичной настройки позволяет существенно снизить вычислительные затраты без потери качества управления роботами. Lobsters · Инфраструктура для агентов TIRx: новый стек компиляторов для оптимизации ML-ядер Проект Apache TVM представил TIRx — специализированный стек компиляторов, предназначенный для работы с быстро меняющимися ML-ядрами (kernels). Инструмент решает проблему фрагментации при разработке высокопроизводительного кода для современных нейросетевых архитектур, позволяя автоматизировать генерацию и оптимизацию низкоуровневых операций под специфическое «железо».

← Все материалы