Hacker News · 30.06.2026 ·Инференс и железо

Ускорение инференса LLM на GPU AMD через оптимизацию GEMM

AMD представила новые методы оптимизации операций матричного умножения (GEMM) для своих графических процессоров, направленные на снижение задержек при работе с большими языковыми моделями. Обновления в программном стеке ROCm позволяют значительно повысить производительность инференса, обеспечивая более эффективную обработку запросов в реальном времени и оптимизируя использование вычислительных ресурсов архитектуры CDNA.

Ключевым элементом оптимизации стало внедрение специализированных ядер (kernels), которые минимизируют накладные расходы при выполнении операций с низкой задержкой. Разработчики сфокусировались на улучшении работы с тензорными ядрами и оптимизации доступа к памяти, что критически важно для моделей с большим количеством параметров, где пропускная способность памяти часто становится основным «бутылочным горлышком».

Данные улучшения позволяют разработчикам инфраструктуры ИИ более гибко подходить к выбору аппаратного обеспечения, снижая зависимость от решений одного вендора. Оптимизированные алгоритмы GEMM уже интегрированы в актуальные версии библиотек ROCm, что упрощает их внедрение в существующие пайплайны инференса без необходимости глубокой переработки кода моделей.

Ключевые факты

Оптимизация направлена на снижение задержек (latency) при выполнении операций матричного умножения (GEMM) в LLM.
Обновления реализованы в рамках программной платформы AMD ROCm для ускорения вычислений на GPU.
Основной упор сделан на эффективное использование архитектуры CDNA и тензорных ядер для повышения пропускной способности.
Методология включает использование специализированных ядер, снижающих накладные расходы на планирование задач и доступ к памяти.
Решения применимы для широкого спектра задач инференса, от локального запуска моделей до развертывания в облачных кластерах.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Инференс и железо AMD представила оптимизированный FP8 GEMM для ускорения ИИ-вычислений AMD анонсировала новую технологию 4-Wave Interleave FP8 GEMM, направленную на ускорение вычислений в ИИ. Решение оптимизирует работу с тензорными ядрами, что позволяет значительно повысить производительность при инференсе моделей. Hacker News · Инференс и железо AMD оптимизировала вычисления для ИИ-моделей на CDNA4 Компания AMD представила оптимизации для вычислений матричных операций (GEMM) в формате FP8 на архитектуре CDNA4. Это позволит ускорить работу ИИ-моделей на графических процессорах Instinct серии MI300X. Hacker News · Инференс и железо AMD оптимизирует инференс для своих GPU Instinct AMD представила Atom Inference Engine — фреймворк для оптимизации работы моделей машинного обучения на графических процессорах Instinct. Решение сочетает аппаратные и программные компоненты, что позволяет ускорить выполнение задач инференса. Hacker News · Инференс и железо Оптимизация Attention для ускорителей AMD MI300X на языке HIP Разработчики представили высокопроизводительное ядро (kernel) для вычисления механизма внимания (Attention), оптимизированное специально под архитектуру графических ускорителей AMD Instinct MI300X. В отличие от большинства существующих решений, требующих написания низкоуровневого кода на ассемблере, данная реализация выполнена на языке HIP (Heterogeneous-compute Interface for Portability). Это значительно упрощает поддержку, отладку и переносимость кода между различными поколениями оборудования AMD, сохраняя при этом высокую скорость работы. Hacker News · Инференс и железо Запуск локальных LLM на встроенной графике AMD Ryzen 8700G Исследование демонстрирует возможности запуска современных языковых моделей на встроенном графическом ядре процессора AMD Ryzen 8700G. Использование iGPU Radeon 780M позволяет достичь производительности 13–15 токенов в секунду для модели Gemma 4 и 9–12 токенов для Qwen 3.6, что делает интегрированные решения жизнеспособным вариантом для локального инференса без необходимости в дискретных видеокартах. Hacker News · Инференс и железо Гайд по оптимизации локального инференса LLM Локальный запуск больших языковых моделей требует баланса между качеством генерации и вычислительной эффективностью. Основные методы оптимизации инференса включают квантование, использование специализированных форматов весов и настройку параметров кэширования KV-блоков. Переход от форматов FP16 к 4-битным или 8-битным представлениям через методы GGUF, EXL2 или AWQ позволяет существенно снизить требования к видеопамяти, сохраняя при этом приемлемый уровень перплексии модели. NVIDIA Technical Blog · Инференс и железо Оптимизация инференса DiffusionGemma на графических процессорах NVIDIA NVIDIA представила рекомендации по запуску модели DiffusionGemma, направленные на повышение производительности генерации текста в реальном времени. Основной акцент сделан на устранении задержек при посимвольном выводе, что критически важно для работы чат-ботов, копайлотов и сложных агентных систем. Использование специализированных библиотек и методов оптимизации позволяет значительно увеличить пропускную способность инференса на аппаратном обеспечении компании. Hacker News · Машинное обучение Оптимизация LLM для ускорения генерации программного кода Исследователи представили методы оптимизации языковых моделей, направленные на повышение скорости генерации программного кода. Основная проблема при работе с кодом заключается в высокой вычислительной сложности инференса, так как структура синтаксиса требует точного предсказания длинных последовательностей токенов. Авторы работы анализируют влияние различных архитектурных решений на задержку (latency) и пропускную способность при выполнении задач программирования. MarkTechPost · Инференс и железо MoonMath AI представила оптимизированное ядро внимания для ускорителей AMD MI300X Компания MoonMath AI опубликовала исходный код нового HIP-ядра (Heterogeneous-Compute Interface for Portability), предназначенного для ускорения операций внимания (attention) на графических процессорах AMD Instinct MI300X. Разработка призвана повысить производительность вычислений при работе с большими языковыми моделями на аппаратном обеспечении AMD. Hacker News · Инференс и железо Оптимизация потребления VRAM через пропуск тайлов в архитектурах без Softmax Разработчики представили архитектурное решение для моделей с длинным контекстом, позволяющее существенно снизить требования к видеопамяти. Метод основан на использовании специализированных ядер (kernels) для пропуска вычислений в определенных сегментах данных, что исключает необходимость выполнения операции Softmax на каждом этапе обработки последовательности.

← Все материалы