Lobsters · 20.06.2026 ·Инференс и железо

Реверс-инжиниринг компилятора NPU от Qualcomm

Исследователи провели детальный анализ работы проприетарного компилятора QAIRT, который используется для подготовки нейросетевых моделей к запуску на NPU (нейронных процессорах) в чипах Qualcomm Snapdragon. В процессе изучения структуры бинарных файлов и промежуточных представлений удалось восстановить логику того, как именно высокоуровневые графы вычислений преобразуются в специфические инструкции для аппаратных ускорителей компании.

Основное внимание в работе уделено формату файлов .dlc, который является стандартом для развертывания моделей на устройствах с архитектурой Qualcomm. Анализ показал, что компилятор выполняет сложную оптимизацию графа, включая квантование весов и специфическое для железа распределение слоев между DSP и NPU. Понимание этих механизмов позволяет глубже разобраться в ограничениях производительности при запуске локальных LLM и других тяжелых моделей на мобильных устройствах.

Результаты исследования открывают возможности для более эффективной оптимизации моделей под мобильное «железо» без использования официальных инструментов вендора. Это критически важно для разработчиков, стремящихся минимизировать задержки при инференсе и снизить энергопотребление при работе с локальными ИИ-агентами на смартфонах и ноутбуках на базе ARM-архитектуры.

Источник: Lobsters

Похожие материалы

Hacker News · Инференс и железо Новый компилятор для Edge AI превосходит решения от Google и вендоров Компания DeepGate представила специализированный компилятор, предназначенный для оптимизации нейросетевых моделей при запуске на периферийных устройствах (Edge AI). Инструмент ориентирован на повышение производительности инференса и снижение энергопотребления, что является критическим фактором для работы ИИ вне облачных дата-центров. Разработчики заявляют, что их решение демонстрирует более высокую эффективность по сравнению с популярными стандартными инструментариями, включая проприетарные стеки от производителей аппаратного обеспечения и открытые решения от Google. The latest research from Google · Модели и релизы TurboQuant: алгоритмы для сверхкомпактных моделей Исследователи Google DeepMind представили TurboQuant — набор алгоритмов для экстремальной компрессии нейросетей. Технология позволяет сократить размер модели в 10–100 раз без потери точности, что критически важно для локального развёртывания ИИ-агентов. arXiv · Инференс и железо Оптимизация INT8 вычислений для диффузионных трансформеров на потребительских GPU Исследователи из Ideogram представили новый подход к оптимизации инференса диффузионных трансформеров на потребительских GPU. В статье, опубликованной на arXiv, они показывают, что посттрейнинговая квантование в INT8 (W8A8) часто оказывается медленнее, чем альтернативы в FP8 и NF4, несмотря на ожидания. Это связано с тем, что в текущих реализациях веса и активации квантуются только для того, чтобы сразу же деквантоваться обратно в bf16 и выполнять матричное умножение в этом формате. Hacker News · Инференс и железо MLX-Optiq: квантование LLM для Apple Silicon Команда MLX представила MLX-Optiq — инструмент для переноса больших языковых моделей (LLM) на устройства Apple Silicon с поддержкой смешанной точности. Это решение позволяет значительно сократить потребление памяти и вычислительных ресурсов при инференсе моделей, что особенно важно для мобильных и встраиваемых устройств. Hacker News · Инференс и железо Экономия 67% на инференсе с Ray и vLLM на AMD MI325X Команда Anyscale опубликовала исследование, в котором продемонстрировала значительную экономию на инференсе моделей большого языка. Используя Ray и vLLM на процессорах AMD MI325X, удалось достичь сокращения затрат на 67% за счёт разнесения (disaggregation) префикса и декодирования. arXiv · Машинное обучение Новый метод прунинга для оптимизации Transformer-моделей Исследователи представили метод Complementary Attention Head Pruning (CAHP), направленный на повышение эффективности архитектуры Transformer. Основная проблема современных LLM заключается в избыточном количестве параметров, что затрудняет их развертывание на устройствах с ограниченными вычислительными ресурсами. Существующие подходы к сжатию моделей часто опираются на градиентный анализ важности весов или стохастическое гейтирование, которые не всегда обеспечивают оптимальный баланс между скоростью работы и качеством генерации. Hacker News · Инференс и железо Tensordyne оптимизирует вычисления для ИИ с помощью логарифмических операций Стартап Tensordyne представил подход к оптимизации вычислительных процессов для нейросетей, основанный на использовании логарифмической арифметики вместо стандартных операций с плавающей запятой. Традиционные вычисления, используемые в современных графических процессорах, требуют значительных затрат энергии и ресурсов при выполнении операций умножения, которые составляют основу работы трансформеров. AI News & Artificial Intelligence | TechCrunch · Инференс и железо Qualcomm разрабатывает 40 новых AI-чипов для будущих устройств Qualcomm активно работает над более чем 40 новыми проектами AI-чипов. Компания планирует стать ключевым поставщиком процессоров для устройств, которые в будущем заменят смартфоны. В рамках этой стратегии Qualcomm представила два новых продукта, направленных на поддержку новых форматов устройств. Hacker News · ИИ в бизнесе Google переводит работу приложения Pixel Screenshots на облачные вычисления Компания Google внесла изменения в архитектуру приложения Pixel Screenshots, которое ранее полагалось исключительно на локальную обработку данных на устройстве. Теперь часть задач по анализу и поиску по сохраненным изображениям перенесена в облачную инфраструктуру. Это решение позволяет использовать более мощные вычислительные ресурсы для обработки сложных запросов и улучшения качества распознавания контента, который не всегда эффективно поддается анализу силами мобильного процессора. Hacker News · Инференс и железо AMD оптимизировала вычисления для ИИ-моделей на CDNA4 Компания AMD представила оптимизации для вычислений матричных операций (GEMM) в формате FP8 на архитектуре CDNA4. Это позволит ускорить работу ИИ-моделей на графических процессорах Instinct серии MI300X.

← Все материалы