Исследователи представили GateGPT — решение для ускоренного инференса трансформеров на FPGA. Система достигает скорости 56 000 токенов в секунду при частоте 80 МГц, используя кеш ключ-значение (KV cache). Это открывает новые возможности для развертывания больших языковых моделей на специализированном оборудовании.
GateGPT оптимизирует работу с трансформерами, что особенно важно для задач, требующих высокой производительности при ограниченных ресурсах. FPGA (программируемые логические матрицы) позволяют гибко настраивать архитектуру под конкретные задачи, что делает их привлекательными для внедрения ИИ в специализированных сценариях.
Разработчики подчеркивают, что их решение может быть полезно для промышленных и научных приложений, где критически важны как скорость обработки, так и энергоэффективность. В будущем GateGPT может стать основой для новых решений в области инференса, особенно в условиях, где традиционные GPU не всегда доступны или оправданы экономически.