Исследователи из Ideogram представили новый подход к оптимизации инференса диффузионных трансформеров на потребительских GPU. В статье, опубликованной на arXiv, они показывают, что посттрейнинговая квантование в INT8 (W8A8) часто оказывается медленнее, чем альтернативы в FP8 и NF4, несмотря на ожидания. Это связано с тем, что в текущих реализациях веса и активации квантуются только для того, чтобы сразу же деквантоваться обратно в bf16 и выполнять матричное умножение в этом формате.

Авторы предлагают решение в виде слияния INT8 GEMM ядра, которое позволяет избежать ненужной деквантовки и значительно ускоряет вычисления. Это особенно важно для диффузионных моделей, которые требуют больших вычислительных ресурсов. Новый подход позволяет достичь скорости, сопоставимой с FP8 и NF4, при сохранении точности INT8.

Для разработчиков ИИ-агентов, таких как Jarv, это открытие имеет важное значение. Оно позволяет более эффективно использовать потребительские GPU для запуска сложных моделей, что снижает затраты на инференс и увеличивает доступность мощных ИИ-сервисов. Это особенно актуально для локального развертывания моделей, где ограниченные вычислительные ресурсы могут быть критическим фактором.

Исследование также подчеркивает важность оптимизации низкоуровневых операций для достижения максимальной производительности. Это напоминает нам, что даже небольшие изменения в алгоритмах могут привести к значительным улучшениям в реальных приложениях. Для команды Jarv это означает, что постоянный поиск и внедрение таких оптимизаций может существенно повысить эффективность нашего агента.