Hacker News · 16.06.2026 ·Инференс и железо

AMD оптимизирует инференс для своих GPU Instinct

AMD представила Atom Inference Engine — фреймворк для оптимизации работы моделей машинного обучения на графических процессорах Instinct. Решение сочетает аппаратные и программные компоненты, что позволяет ускорить выполнение задач инференса.

Ключевая особенность Atom Inference Engine — это интеграция с ROCm, открытой платформой для вычислений на GPU. Это позволяет разработчикам использовать стандартные инструменты и библиотеки, такие как TensorFlow и PyTorch, для развертывания моделей на оборудовании AMD.

AMD утверждает, что оптимизация программного обеспечения и аппаратного обеспечения позволяет достичь значительных улучшений в производительности. Например, в некоторых сценариях инференс ускоряется в несколько раз по сравнению с традиционными подходами.

Новый фреймворк особенно полезен для задач, требующих высокой производительности, таких как обработка естественного языка, компьютерное зрение и анализ больших данных. Atom Inference Engine также поддерживает различные форматы моделей, что делает его универсальным инструментом для разработчиков и исследователей.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Инференс и железо AMD оптимизировала вычисления для ИИ-моделей на CDNA4 Компания AMD представила оптимизации для вычислений матричных операций (GEMM) в формате FP8 на архитектуре CDNA4. Это позволит ускорить работу ИИ-моделей на графических процессорах Instinct серии MI300X. Hacker News · Инференс и железо AMD представила оптимизированный FP8 GEMM для ускорения ИИ-вычислений AMD анонсировала новую технологию 4-Wave Interleave FP8 GEMM, направленную на ускорение вычислений в ИИ. Решение оптимизирует работу с тензорными ядрами, что позволяет значительно повысить производительность при инференсе моделей. Hacker News · Бизнес и инвестиции AMD и Anthropic объявили о стратегическом партнерстве для масштабирования вычислений AMD и Anthropic заключили масштабное соглашение, направленное на ускорение разработки моделей искусственного интеллекта следующего поколения. В рамках партнерства компании планируют развернуть инфраструктуру на базе графических ускорителей AMD Instinct MI450 общей мощностью до 2 гигаватт. Это сотрудничество призвано обеспечить Anthropic вычислительными мощностями, необходимыми для обучения и эксплуатации будущих итераций семейства моделей Claude. MarkTechPost · Инференс и железо MoonMath AI представила оптимизированное ядро внимания для ускорителей AMD MI300X Компания MoonMath AI опубликовала исходный код нового HIP-ядра (Heterogeneous-Compute Interface for Portability), предназначенного для ускорения операций внимания (attention) на графических процессорах AMD Instinct MI300X. Разработка призвана повысить производительность вычислений при работе с большими языковыми моделями на аппаратном обеспечении AMD. Hacker News · Модели и релизы AMD представила Instella-MoE: открытую модель с архитектурой Mixture-of-Experts Компания AMD выпустила Instella-MoE — новую открытую языковую модель, построенную на архитектуре Mixture-of-Experts (MoE). Релиз направлен на оптимизацию производительности при выполнении сложных вычислительных задач на аппаратном обеспечении AMD, включая использование стека ROCm. Модель демонстрирует эффективность в задачах инференса, сочетая высокую скорость обработки данных с качеством генерации, сопоставимым с современными аналогами аналогичного размера. Hacker News · Инфраструктура для агентов AMD открыла машиночитаемую спецификацию ISA для генерации GPU-ядер ИИ-моделями AMD опубликовала машиночитаемую спецификацию архитектуры набора команд (ISA) для своих графических процессоров. Этот шаг позволяет современным ИИ-моделям напрямую генерировать оптимизированный код ядер (kernels) для GPU компании. Инициатива направлена на снижение зависимости экосистемы от проприетарных решений и упрощение разработки высокопроизводительного ПО для вычислений на видеокартах AMD через автоматизированную генерацию кода. Hacker News · Бизнес и инвестиции AMD и Anthropic заключили стратегическое партнерство по развитию ИИ-инфраструктуры AMD и Anthropic объявили о масштабном сотрудничестве, направленном на оптимизацию работы моделей Claude на графических процессорах AMD. В рамках сделки Anthropic будет использовать чипы AMD Instinct для обучения и развертывания своих систем, что призвано снизить зависимость рынка от решений NVIDIA и ускорить развитие высокопроизводительной инфраструктуры для генеративного ИИ. Hacker News · Инференс и железо Оптимизация Attention для ускорителей AMD MI300X на языке HIP Разработчики представили высокопроизводительное ядро (kernel) для вычисления механизма внимания (Attention), оптимизированное специально под архитектуру графических ускорителей AMD Instinct MI300X. В отличие от большинства существующих решений, требующих написания низкоуровневого кода на ассемблере, данная реализация выполнена на языке HIP (Heterogeneous-compute Interface for Portability). Это значительно упрощает поддержку, отладку и переносимость кода между различными поколениями оборудования AMD, сохраняя при этом высокую скорость работы. Hacker News · Инференс и железо Ускорение инференса LLM на GPU AMD через оптимизацию GEMM AMD представила новые методы оптимизации операций матричного умножения (GEMM) для своих графических процессоров, направленные на снижение задержек при работе с большими языковыми моделями. Обновления в программном стеке ROCm позволяют значительно повысить производительность инференса, обеспечивая более эффективную обработку запросов в реальном времени и оптимизируя использование вычислительных ресурсов архитектуры CDNA. Hacker News · Прогнозы и тренды AMD представила стратегию развития ИИ-инфраструктуры до 2026 года Компания AMD провела презентацию «Advancing AI 2026», на которой раскрыла планы по развитию аппаратного обеспечения для высокопроизводительных вычислений. Основной акцент сделан на масштабировании вычислительных мощностей для обучения и инференса крупных языковых моделей, а также на расширении экосистемы программного обеспечения ROCm для конкуренции с доминирующими решениями на рынке графических ускорителей для дата-центров.

← Все материалы