Hacker News · 16.06.2026 ·Инференс и железо

GateGPT: 56k токенов в секунду на FPGA

Исследователи представили GateGPT — решение для ускоренного инференса трансформеров на FPGA. Система достигает скорости 56 000 токенов в секунду при частоте 80 МГц, используя кеш ключ-значение (KV cache). Это открывает новые возможности для развертывания больших языковых моделей на специализированном оборудовании.

GateGPT оптимизирует работу с трансформерами, что особенно важно для задач, требующих высокой производительности при ограниченных ресурсах. FPGA (программируемые логические матрицы) позволяют гибко настраивать архитектуру под конкретные задачи, что делает их привлекательными для внедрения ИИ в специализированных сценариях.

Разработчики подчеркивают, что их решение может быть полезно для промышленных и научных приложений, где критически важны как скорость обработки, так и энергоэффективность. В будущем GateGPT может стать основой для новых решений в области инференса, особенно в условиях, где традиционные GPU не всегда доступны или оправданы экономически.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

GitHub · Инференс и железо Реализация архитектуры Transformer на уровне RTL для FPGA Проект gateGPT демонстрирует возможность переноса архитектуры трансформеров непосредственно на аппаратный уровень с использованием языка описания аппаратуры (RTL). Разработчикам удалось реализовать полноценную модель на базе FPGA Virtex-5, что позволяет выполнять вычисления без участия центрального процессора или специализированных GPU-ускорителей. MarkTechPost · Инфраструктура для агентов Gigatoken: высокопроизводительный BPE-токенизатор на Rust Представлен Gigatoken — новый BPE-токенизатор с открытым исходным кодом, написанный на языке Rust. Инструмент демонстрирует рекордную скорость обработки текста до 24,53 ГБ/с, что значительно превосходит существующие аналоги, включая решения от HuggingFace и tiktoken. Высокая производительность достигается за счет оптимизированного претокенизатора и системы кэширования, что критически важно для ускорения работы LLM-конвейеров. arXiv · Инференс и железо FlexViT: новый FPGA-ускоритель для Vision Transformers на периферийных устройствах Исследователи представили FlexViT — специализированную архитектуру ускорителя на базе FPGA, предназначенную для эффективного запуска Vision Transformer (ViT) моделей на периферийных устройствах. Решение решает проблему высокой вычислительной сложности и неоднородности гибридных моделей, сочетающих полносвязные и сверточные слои, обеспечивая гибкую обработку тензоров с переменными формами и повышая производительность инференса в условиях ограниченных ресурсов. Hacker News · Инференс и железо Новый сервер инференса для DGX Spark ускоряет работу крупных моделей Представлен новый сервер инференса, оптимизированный для системы DGX Spark, который обеспечивает высокую скорость генерации для крупногабаритных моделей. Решение достигает производительности 55–90 токенов в секунду без использования методов спекулятивного декодирования. Это значительный шаг в оптимизации аппаратного обеспечения для развертывания тяжелых LLM в корпоративной инфраструктуре, позволяющий повысить эффективность обработки запросов в реальном времени. Hacker News · Инференс и железо Оптимизация инференса: объединение шагов декодирования 27B модели в один CUDA-ядро Исследователи представили метод оптимизации инференса для 27-миллиардных тернарных LLM, объединяющий весь процесс декодирования в единое CUDA-ядро. Это решение радикально снижает накладные расходы на передачу данных между памятью и вычислительными блоками GPU, позволяя значительно увеличить пропускную способность и скорость генерации токенов при сохранении высокой точности работы квантованных моделей на потребительском и серверном железе. Hacker News · Инференс и железо Etched представила специализированные кластеры для инференса трансформеров Компания Etched анонсировала создание специализированных вычислительных кластеров, оптимизированных исключительно для инференса архитектуры Transformer. В отличие от универсальных GPU, новая инфраструктура использует ASIC-чипы Sohu, что позволяет достичь кратного прироста производительности и снижения задержек при работе с крупными языковыми моделями. Решение ориентировано на масштабируемые задачи инференса в промышленном секторе. Hacker News · Инференс и железо Ускорение матричных операций на GPU в 2678 раз Исследователи обнаружили, что графические процессоры (GPU) могут ускорять матричные операции в 2678 раз по сравнению с традиционными методами. Это открытие имеет значительное значение для машинного обучения и обработки больших данных, где матричные вычисления являются ключевым элементом. Hacker News · Инференс и железо AMD представила оптимизированный FP8 GEMM для ускорения ИИ-вычислений AMD анонсировала новую технологию 4-Wave Interleave FP8 GEMM, направленную на ускорение вычислений в ИИ. Решение оптимизирует работу с тензорными ядрами, что позволяет значительно повысить производительность при инференсе моделей. arXiv · Инференс и железо MDTransformer: фотонный ускоритель для эффективного инференса трансформеров Исследователи представили MDTransformer — архитектуру фотонного ускорителя, объединяющую аппаратное и программное проектирование для ускорения работы трансформеров. Решение использует метод разделения мод (mode-division) и инверсно спроектированные когерентные кроссбары, что позволяет преодолеть ограничения существующих фотонных систем, связанные с необходимостью генерации множества длин волн и использованием энергозатратных фазовращателей. NVIDIA Technical Blog · Инференс и железо Оптимизация GPU: как Kernel Fusion ускоряет работу нейросетей NVIDIA опубликовала технический разбор метода Kernel Fusion, позволяющего объединять несколько операций GPU в одно ядро. Этот подход критически важен для повышения производительности ИИ-моделей, так как он минимизирует затраты на передачу данных между памятью и вычислительными блоками, а также снижает накладные расходы на запуск ядер, что напрямую ускоряет инференс и обучение нейросетей.

← Все материалы