Появилось руководство по запуску крупных языковых моделей архитектуры Mixture of Experts (MoE) с 35 миллиардами параметров на видеокартах прошлых поколений, таких как AMD Radeon RX 580 с 8 ГБ видеопамяти. Техническое решение базируется на использовании графического API Vulkan, что позволяет обойти аппаратные ограничения и отсутствие поддержки проприетарных платформ вроде ROCm или CUDA.
Ключ к работе модели на столь скромном по современным меркам оборудовании лежит в методах квантования и эффективном управлении памятью. Использование Vulkan обеспечивает кроссплатформенную совместимость, позволяя задействовать вычислительные мощности GPU для инференса там, где раньше требовались специализированные ускорители или значительные объемы оперативной памяти.
Этот подход расширяет возможности локального запуска тяжелых ИИ-моделей на потребительском железе, которое ранее считалось непригодным для подобных задач. Оптимизация инференса через открытые стандарты снижает порог входа для экспериментов с нейросетями, позволяя тестировать сложные архитектуры без необходимости обновления аппаратного обеспечения.