Проект gateGPT демонстрирует возможность переноса архитектуры трансформеров непосредственно на аппаратный уровень с использованием языка описания аппаратуры (RTL). Разработчикам удалось реализовать полноценную модель на базе FPGA Virtex-5, что позволяет выполнять вычисления без участия центрального процессора или специализированных GPU-ускорителей.
Система достигает скорости генерации около 56 тысяч токенов в секунду. Столь высокая производительность обусловлена аппаратной параллелизацией операций, характерных для трансформеров, что открывает путь к созданию специализированных чипов для инференса ИИ-моделей с минимальными задержками и энергопотреблением.
Данный подход переосмысливает традиционный процесс исполнения нейросетей, где выполнение кода на CPU или GPU заменяется жестко заданной логикой на кристалле. Это решение демонстрирует потенциал оптимизации вычислительных ресурсов для задач генеративного ИИ встраиваемых систем, где критически важны скорость отклика и компактность аппаратного обеспечения.