Исследование демонстрирует возможности запуска современных языковых моделей на встроенном графическом ядре процессора AMD Ryzen 8700G. Использование iGPU Radeon 780M позволяет достичь производительности 13–15 токенов в секунду для модели Gemma 4 и 9–12 токенов для Qwen 3.6, что делает интегрированные решения жизнеспособным вариантом для локального инференса без необходимости в дискретных видеокартах.
Автор проекта реализовал программный стек на базе TrueNAS, обеспечив работу моделей через локальный API. Основная сложность заключалась в настройке окружения для корректной работы с ROCm на встроенной графике, так как стандартные конфигурации часто ориентированы на дискретные GPU серии Radeon RX. Оптимизация позволила добиться стабильной работы LLM в рамках домашнего сервера, используя только ресурсы APU.
Данный подход открывает возможности для развертывания агентных систем и локальных RAG-решений на энергоэффективном железе. Использование встроенной памяти системы в качестве видеопамяти (UMA) позволяет запускать модели с достаточно большим количеством параметров, ограниченных лишь общим объемом оперативной памяти, установленной в материнскую плату.
Ключевые факты
- Процессор: AMD Ryzen 8700G с интегрированной графикой Radeon 780M.
- Скорость инференса: 13–15 токенов/сек для Gemma 4 и 9–12 токенов/сек для Qwen 3.6.
- Стек: TrueNAS, ROCm, локальный API-интерфейс для взаимодействия с моделями.
- Особенности: использование системной оперативной памяти в качестве VRAM для нужд iGPU.