Исследователи провели детальный анализ работы проприетарного компилятора QAIRT, который используется для подготовки нейросетевых моделей к запуску на NPU (нейронных процессорах) в чипах Qualcomm Snapdragon. В процессе изучения структуры бинарных файлов и промежуточных представлений удалось восстановить логику того, как именно высокоуровневые графы вычислений преобразуются в специфические инструкции для аппаратных ускорителей компании.

Основное внимание в работе уделено формату файлов .dlc, который является стандартом для развертывания моделей на устройствах с архитектурой Qualcomm. Анализ показал, что компилятор выполняет сложную оптимизацию графа, включая квантование весов и специфическое для железа распределение слоев между DSP и NPU. Понимание этих механизмов позволяет глубже разобраться в ограничениях производительности при запуске локальных LLM и других тяжелых моделей на мобильных устройствах.

Результаты исследования открывают возможности для более эффективной оптимизации моделей под мобильное «железо» без использования официальных инструментов вендора. Это критически важно для разработчиков, стремящихся минимизировать задержки при инференсе и снизить энергопотребление при работе с локальными ИИ-агентами на смартфонах и ноутбуках на базе ARM-архитектуры.