Hacker News · 20.06.2026 ·Инференс и железо

Запуск 35B MoE моделей на устаревших GPU через Vulkan

Появилось руководство по запуску крупных языковых моделей архитектуры Mixture of Experts (MoE) с 35 миллиардами параметров на видеокартах прошлых поколений, таких как AMD Radeon RX 580 с 8 ГБ видеопамяти. Техническое решение базируется на использовании графического API Vulkan, что позволяет обойти аппаратные ограничения и отсутствие поддержки проприетарных платформ вроде ROCm или CUDA.

Ключ к работе модели на столь скромном по современным меркам оборудовании лежит в методах квантования и эффективном управлении памятью. Использование Vulkan обеспечивает кроссплатформенную совместимость, позволяя задействовать вычислительные мощности GPU для инференса там, где раньше требовались специализированные ускорители или значительные объемы оперативной памяти.

Этот подход расширяет возможности локального запуска тяжелых ИИ-моделей на потребительском железе, которое ранее считалось непригодным для подобных задач. Оптимизация инференса через открытые стандарты снижает порог входа для экспериментов с нейросетями, позволяя тестировать сложные архитектуры без необходимости обновления аппаратного обеспечения.

Источник: Hacker News

Похожие материалы

Hacker News · Инференс и железо Запуск локальных LLM на видеокартах AMD через Vulkan Появилась возможность запускать современные языковые модели на устаревшем оборудовании, включая видеокарты AMD серии RX 580, выпущенные в 2017 году. Решение опирается на использование графического API Vulkan, что позволяет обойти зависимость от проприетарных технологий NVIDIA CUDA или специфических драйверов ROCm, которые зачастую не поддерживают старые архитектуры GPU. NVIDIA Technical Blog · Модели и релизы Как NVIDIA ускорила обучение MoE-моделей на 30% NVIDIA представила новые методы оптимизации обучения Mixture-of-Experts (MoE) моделей, которые стали ключевым компонентом современных ИИ-систем. Исследователи компании разработали продвинутые ядра слияния (fusion kernels), которые позволяют значительно ускорить процесс обучения. Hacker News · Инференс и железо Qwen 3.6 93B на двух RTX 3090 NVLink: 187 токенов в секунду Команда Augmented Reality Virtual Reality (AR VR) опубликовала результаты тестирования модели Qwen 3.6 93B с использованием MTP (Multi-Query Tensor Parallelism) на конфигурации из двух видеокарт RTX 3090 с NVLink. В результате удалось достичь скорости инференса в 187 токенов в секунду. Это значительное улучшение по сравнению с предыдущими показателями, что делает модель более пригодной для локального использования, включая разработку ИИ-агентов. Hacker News · Инференс и железо AMD расширяет поддержку ROCm для чипов Strix Halo Компания AMD официально подтвердила статус полноценной поддержки программной платформы ROCm для своих новых процессоров Strix Halo. Это решение знаменует собой важный сдвиг в стратегии компании, направленный на упрощение работы с высокопроизводительными вычислениями на архитектуре x86 в сочетании с мощной интегрированной графикой. Ранее разработчикам приходилось сталкиваться с ограничениями при запуске специфических ИИ-задач на мобильных чипах, однако теперь программный стек для обучения и инференса моделей становится доступным «из коробки». NVIDIA Technical Blog · Инференс и железо Запуск мультимодальных моделей на GPU NVIDIA NVIDIA представила обновление для своей платформы Step 3.7 Flash, которое позволяет запускать мультимодальные ИИ-модели на графических процессорах с повышенной производительностью. Это решение ориентировано на корпоративных пользователей и предоставляет инструменты для работы с изображениями, документами, видео и другими типами данных. arXiv · Инфраструктура для агентов FoMoE: новый подход к обучению MoE-моделей через федерацию экспертов Исследователи представили архитектуру FoMoE (Federation of Mixture-of-Experts), которая решает проблему жесткой привязки параметров модели к вычислительной инфраструктуре. Традиционные методы обучения крупных языковых моделей требуют использования массивов тесно связанных ускорителей, что ограничивает масштабируемость. Новый подход позволяет распределять экспертов в составе MoE-архитектуры между независимыми вычислительными узлами, снимая барьер «полной репликации» весов модели на каждом устройстве. Lobsters · Инференс и железо Альтернативы CUDA и OpenCL для инференса ИИ Компания Modular, специализирующаяся на разработке инфраструктуры для ИИ, выпустила пятую часть своего исследования, посвящённую демократизации вычислительных ресурсов для ИИ. В этом материале рассматриваются альтернативы CUDA и OpenCL, которые могут быть полезны для разработчиков ИИ-агентов, особенно в условиях ограниченного доступа к специализированному железу. Hacker News · Инференс и железо Экономия 67% на инференсе с Ray и vLLM на AMD MI325X Команда Anyscale опубликовала исследование, в котором продемонстрировала значительную экономию на инференсе моделей большого языка. Используя Ray и vLLM на процессорах AMD MI325X, удалось достичь сокращения затрат на 67% за счёт разнесения (disaggregation) префикса и декодирования. Hacker News · Инференс и железо AMD оптимизирует инференс для своих GPU Instinct AMD представила Atom Inference Engine — фреймворк для оптимизации работы моделей машинного обучения на графических процессорах Instinct. Решение сочетает аппаратные и программные компоненты, что позволяет ускорить выполнение задач инференса. Hacker News · Инференс и железо Расчёт загрузки GPU AMD MI355X для инференса моделей Инженеры из Indianspeedster опубликовали подробное руководство по расчёту загрузки GPU AMD MI355X. В статье разбираются ключевые параметры, влияющие на производительность при инференсе моделей: количество потоков, блоки вычислений и другие технические аспекты.

← Все материалы