Компания MoonMath AI опубликовала исходный код нового HIP-ядра (Heterogeneous-Compute Interface for Portability), предназначенного для ускорения операций внимания (attention) на графических процессорах AMD Instinct MI300X. Разработка призвана повысить производительность вычислений при работе с большими языковыми моделями на аппаратном обеспечении AMD.
Техническая реализация решения опирается на использование ассемблерных оберток с одной инструкцией и конвейерную архитектуру с восемью волнами (eight-wave pipeline). Такой подход позволил оптимизировать выполнение математических операций на низком уровне, обеспечив более эффективную загрузку вычислительных блоков GPU по сравнению со стандартными решениями.
Согласно результатам внутренних тестов, новое ядро демонстрирует превосходство над официальным решением AMD AITER v3. Улучшение показателей зафиксировано для всех конфигураций форм тензоров и режимов округления, что делает разработку значимым инструментом для повышения скорости инференса и обучения моделей на базе архитектуры AMD CDNA 3.
