Компания Wafer представила результаты тестирования модели GLM-5.2 на базе ускорителей AMD Instinct MI355X. Система продемонстрировала скорость инференса 2626 токенов в секунду на узел. По расчетам разработчиков, стоимость эксплуатации данного решения оказывается более чем в два раза ниже по сравнению с использованием архитектуры NVIDIA Blackwell при сопоставимых задачах масштабирования.
Тестирование проводилось в условиях, имитирующих высоконагруженные среды для работы с большими языковыми моделями. Использование ускорителей AMD с архитектурой CDNA 3 позволяет достичь высокой пропускной способности памяти и вычислительной плотности, что критически важно для снижения задержек при генерации текста. Оптимизация программного стека под специфику оборудования AMD стала ключевым фактором в достижении таких показателей.
Результаты подчеркивают растущую конкуренцию на рынке аппаратного обеспечения для ИИ-инференса. Переход на альтернативные архитектуры позволяет компаниям оптимизировать бюджеты на инфраструктуру, не жертвуя при этом скоростью обработки запросов. Данный кейс демонстрирует эффективность интеграции специализированного ПО с новейшими графическими процессорами для снижения совокупной стоимости владения (TCO) в дата-центрах.
Ключевые факты
- Скорость работы модели GLM-5.2 составила 2626 токенов в секунду на один узел.
- В качестве аппаратной платформы использовались ускорители AMD Instinct MI355X.
- Заявленное снижение стоимости эксплуатации превышает 2 раза по сравнению с архитектурой NVIDIA Blackwell.
- Оптимизация направлена на повышение эффективности развертывания LLM в промышленных масштабах.