Hacker News · 03.07.2026 ·Инференс и железо

Производительность GLM-5.2 на ускорителях AMD MI355X

Компания Wafer представила результаты тестирования модели GLM-5.2 на базе ускорителей AMD Instinct MI355X. Система продемонстрировала скорость инференса 2626 токенов в секунду на узел. По расчетам разработчиков, стоимость эксплуатации данного решения оказывается более чем в два раза ниже по сравнению с использованием архитектуры NVIDIA Blackwell при сопоставимых задачах масштабирования.

Тестирование проводилось в условиях, имитирующих высоконагруженные среды для работы с большими языковыми моделями. Использование ускорителей AMD с архитектурой CDNA 3 позволяет достичь высокой пропускной способности памяти и вычислительной плотности, что критически важно для снижения задержек при генерации текста. Оптимизация программного стека под специфику оборудования AMD стала ключевым фактором в достижении таких показателей.

Результаты подчеркивают растущую конкуренцию на рынке аппаратного обеспечения для ИИ-инференса. Переход на альтернативные архитектуры позволяет компаниям оптимизировать бюджеты на инфраструктуру, не жертвуя при этом скоростью обработки запросов. Данный кейс демонстрирует эффективность интеграции специализированного ПО с новейшими графическими процессорами для снижения совокупной стоимости владения (TCO) в дата-центрах.

Ключевые факты

Скорость работы модели GLM-5.2 составила 2626 токенов в секунду на один узел.
В качестве аппаратной платформы использовались ускорители AMD Instinct MI355X.
Заявленное снижение стоимости эксплуатации превышает 2 раза по сравнению с архитектурой NVIDIA Blackwell.
Оптимизация направлена на повышение эффективности развертывания LLM в промышленных масштабах.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Инференс и железо Ускорение инференса LLM на GPU AMD через оптимизацию GEMM AMD представила новые методы оптимизации операций матричного умножения (GEMM) для своих графических процессоров, направленные на снижение задержек при работе с большими языковыми моделями. Обновления в программном стеке ROCm позволяют значительно повысить производительность инференса, обеспечивая более эффективную обработку запросов в реальном времени и оптимизируя использование вычислительных ресурсов архитектуры CDNA. Hacker News · Инференс и железо Экономия 67% на инференсе с Ray и vLLM на AMD MI325X Команда Anyscale опубликовала исследование, в котором продемонстрировала значительную экономию на инференсе моделей большого языка. Используя Ray и vLLM на процессорах AMD MI325X, удалось достичь сокращения затрат на 67% за счёт разнесения (disaggregation) префикса и декодирования. MarkTechPost · Инференс и железо MoonMath AI представила оптимизированное ядро внимания для ускорителей AMD MI300X Компания MoonMath AI опубликовала исходный код нового HIP-ядра (Heterogeneous-Compute Interface for Portability), предназначенного для ускорения операций внимания (attention) на графических процессорах AMD Instinct MI300X. Разработка призвана повысить производительность вычислений при работе с большими языковыми моделями на аппаратном обеспечении AMD. Hacker News · Инференс и железо AMD оптимизировала вычисления для ИИ-моделей на CDNA4 Компания AMD представила оптимизации для вычислений матричных операций (GEMM) в формате FP8 на архитектуре CDNA4. Это позволит ускорить работу ИИ-моделей на графических процессорах Instinct серии MI300X. Hacker News · Инференс и железо AMD представила оптимизированный FP8 GEMM для ускорения ИИ-вычислений AMD анонсировала новую технологию 4-Wave Interleave FP8 GEMM, направленную на ускорение вычислений в ИИ. Решение оптимизирует работу с тензорными ядрами, что позволяет значительно повысить производительность при инференсе моделей. NVIDIA Technical Blog · Инференс и железо Ускорение инференса в 15 раз на архитектуре NVIDIA Blackwell через DFlash NVIDIA представила технологию DFlash, предназначенную для оптимизации работы больших языковых моделей на аппаратной платформе Blackwell. Метод основан на технике спекулятивного декодирования, которая позволяет значительно сократить задержки при генерации текста. В отличие от стандартных подходов, DFlash использует специализированные механизмы предсказания токенов, что позволяет достичь ускорения инференса до 15 раз в зависимости от конфигурации системы и типа модели. Hacker News · Инференс и железо Запуск локальных LLM на встроенной графике AMD Ryzen 8700G Исследование демонстрирует возможности запуска современных языковых моделей на встроенном графическом ядре процессора AMD Ryzen 8700G. Использование iGPU Radeon 780M позволяет достичь производительности 13–15 токенов в секунду для модели Gemma 4 и 9–12 токенов для Qwen 3.6, что делает интегрированные решения жизнеспособным вариантом для локального инференса без необходимости в дискретных видеокартах. Hacker News · Инференс и железо Оптимизация Attention для ускорителей AMD MI300X на языке HIP Разработчики представили высокопроизводительное ядро (kernel) для вычисления механизма внимания (Attention), оптимизированное специально под архитектуру графических ускорителей AMD Instinct MI300X. В отличие от большинства существующих решений, требующих написания низкоуровневого кода на ассемблере, данная реализация выполнена на языке HIP (Heterogeneous-compute Interface for Portability). Это значительно упрощает поддержку, отладку и переносимость кода между различными поколениями оборудования AMD, сохраняя при этом высокую скорость работы. Hacker News · Инференс и железо Энергоэффективность нейропроцессоров: бенчмарк Memryx MX3 на граничных устройствах Исследование производительности и энергопотребления специализированного ИИ-ускорителя Memryx MX3 демонстрирует возможности запуска глубоких нейронных сетей на периферийных устройствах. Автор тестирует чип в задачах инференса, сравнивая показатели энергоэффективности и задержки с традиционными решениями, что критически важно для развертывания автономных агентных систем вне облачной инфраструктуры и обеспечения работы ИИ в условиях ограниченного питания. Hacker News · Инференс и железо Cerebras обеспечила сверхбыстрый инференс для мультимодальной модели Gemma 2 Компания Cerebras представила решение для ускоренного запуска мультимодальной модели Gemma 2, обеспечив беспрецедентную скорость генерации токенов. Использование специализированного аппаратного обеспечения позволяет обрабатывать запросы с минимальной задержкой, что делает систему одной из самых производительных на рынке для задач, требующих работы с текстом и изображениями в режиме реального времени.

← Все материалы