Компания Etched анонсировала создание специализированных вычислительных кластеров, оптимизированных исключительно для инференса архитектуры Transformer. В отличие от универсальных GPU, новая инфраструктура использует ASIC-чипы Sohu, что позволяет достичь кратного прироста производительности и снижения задержек при работе с крупными языковыми моделями. Решение ориентировано на масштабируемые задачи инференса в промышленном секторе.
Архитектура чипа Sohu спроектирована с отказом от поддержки операций, не связанных с трансформерами, что позволило разработчикам перераспределить ресурсы в пользу вычислительных ядер и пропускной способности памяти. Такой подход обеспечивает работу моделей с высокой плотностью токенов в секунду, что критически важно для агентных систем и высоконагруженных API, где время отклика является определяющим фактором.
Использование специализированного железа позволяет компаниям существенно сократить операционные расходы на поддержку инфраструктуры для LLM. В условиях растущего спроса на локальный и облачный инференс, переход на специализированные ASIC-решения становится значимым трендом, позволяющим обходить ограничения традиционных графических ускорителей, которые изначально создавались для более широкого спектра задач, включая графику и научные вычисления.
Ключевые факты
- Чип Sohu от Etched является специализированным ASIC-ускорителем, разработанным только для архитектуры Transformer.
- Отказ от поддержки нерелевантных для трансформеров операций позволил увеличить скорость инференса в десятки раз по сравнению с GPU общего назначения.
- Инфраструктура кластеров Etched нацелена на поддержку моделей с миллиардами параметров в режиме реального времени.
- Решение позволяет снизить стоимость одного токена при масштабируемом инференсе за счет высокой энергоэффективности и плотности вычислений.