Hacker News · 30.06.2026 ·Инференс и железо

Запуск локальных LLM на встроенной графике AMD Ryzen 8700G

Исследование демонстрирует возможности запуска современных языковых моделей на встроенном графическом ядре процессора AMD Ryzen 8700G. Использование iGPU Radeon 780M позволяет достичь производительности 13–15 токенов в секунду для модели Gemma 4 и 9–12 токенов для Qwen 3.6, что делает интегрированные решения жизнеспособным вариантом для локального инференса без необходимости в дискретных видеокартах.

Автор проекта реализовал программный стек на базе TrueNAS, обеспечив работу моделей через локальный API. Основная сложность заключалась в настройке окружения для корректной работы с ROCm на встроенной графике, так как стандартные конфигурации часто ориентированы на дискретные GPU серии Radeon RX. Оптимизация позволила добиться стабильной работы LLM в рамках домашнего сервера, используя только ресурсы APU.

Данный подход открывает возможности для развертывания агентных систем и локальных RAG-решений на энергоэффективном железе. Использование встроенной памяти системы в качестве видеопамяти (UMA) позволяет запускать модели с достаточно большим количеством параметров, ограниченных лишь общим объемом оперативной памяти, установленной в материнскую плату.

Ключевые факты

Процессор: AMD Ryzen 8700G с интегрированной графикой Radeon 780M.
Скорость инференса: 13–15 токенов/сек для Gemma 4 и 9–12 токенов/сек для Qwen 3.6.
Стек: TrueNAS, ROCm, локальный API-интерфейс для взаимодействия с моделями.
Особенности: использование системной оперативной памяти в качестве VRAM для нужд iGPU.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Инференс и железо Запуск локальных LLM на видеокартах AMD через Vulkan Появилась возможность запускать современные языковые модели на устаревшем оборудовании, включая видеокарты AMD серии RX 580, выпущенные в 2017 году. Решение опирается на использование графического API Vulkan, что позволяет обойти зависимость от проприетарных технологий NVIDIA CUDA или специфических драйверов ROCm, которые зачастую не поддерживают старые архитектуры GPU. Hacker News · Инференс и железо Практика запуска локальных LLM: выбор моделей и аппаратного обеспечения Пользователи сообщества Hacker News поделились актуальным опытом запуска локальных языковых моделей, выделив наиболее эффективные связки железа и софта. Обсуждение сфокусировано на балансе между скоростью генерации токенов и качеством ответов, а также на выборе оптимальных конфигураций видеопамяти для работы с современными квантованными моделями в домашних условиях. Hacker News · Модели и релизы Анализ производительности модели Qwen 2.5 32B для локальной разработки Выпуск модели Qwen 2.5 32B стал значимым событием для локального инференса, предлагая оптимальный баланс между вычислительными требованиями и качеством генерации. Модель демонстрирует высокую эффективность в задачах программирования и логического вывода, сопоставимую с более крупными проприетарными решениями, что делает её предпочтительным выбором для запуска на потребительском железе без потери точности ответов. Hacker News · Инференс и железо Локальный запуск LLM: архитектурные вызовы и практические подходы Локальный инференс моделей становится ключевым элементом инфраструктуры для тех, кто стремится к приватности данных и снижению зависимости от облачных API. Основная сложность при запуске больших языковых моделей на собственном оборудовании заключается в управлении памятью и пропускной способностью шины данных. Эффективная работа требует оптимизации весов моделей, использования квантования и специализированных библиотек, которые позволяют распределять нагрузку между центральным и графическим процессорами. MarkTechPost · Инференс и железо Liquid AI выпустила компактную модель LFM2.5-230M для локального запуска Компания Liquid AI представила LFM2.5-230M — свою самую компактную нейросеть с 230 млн параметров. Модель оптимизирована для работы на периферийных устройствах, демонстрируя высокую скорость генерации текста. Она поддерживает популярные фреймворки инференса, такие как llama.cpp и vLLM, и показывает превосходство над более крупными аналогами в задачах извлечения данных и выполнения инструкций. Hacker News · Инференс и железо Запуск современных LLM на архитектуре PowerPC Энтузиасты успешно адаптировали запуск больших языковых моделей на устаревшем оборудовании Apple PowerPC G4, используя оптимизированные библиотеки инференса. Несмотря на архитектурные ограничения процессоров начала 2000-х годов, проект демонстрирует возможности портирования современных методов обработки данных на нетипичные вычислительные платформы, что расширяет границы применимости локальных моделей вне стандартных x86 и ARM-систем. Hacker News · Инфраструктура для агентов LLM-d: распределенный инференс больших языковых моделей Проект LLM-d предлагает архитектурное решение для распределенного запуска LLM, позволяя объединять вычислительные мощности нескольких узлов для инференса моделей, которые не помещаются в память одного GPU. Система использует механизм разделения весов модели между участниками сети, что снижает требования к локальному «железу» и позволяет запускать тяжелые архитектуры на потребительском оборудовании. Hacker News · Инференс и железо Qwen 3.6 93B на двух RTX 3090 NVLink: 187 токенов в секунду Команда Augmented Reality Virtual Reality (AR VR) опубликовала результаты тестирования модели Qwen 3.6 93B с использованием MTP (Multi-Query Tensor Parallelism) на конфигурации из двух видеокарт RTX 3090 с NVLink. В результате удалось достичь скорости инференса в 187 токенов в секунду. Это значительное улучшение по сравнению с предыдущими показателями, что делает модель более пригодной для локального использования, включая разработку ИИ-агентов. Hacker News · Инференс и железо Fastllm: запуск DeepSeek-V4 на потребительском железе с 10 ГБ VRAM Библиотека Fastllm оптимизировала процесс инференса для тяжеловесных моделей, позволив запускать DeepSeek-V4 на видеокартах с объемом памяти всего 10 ГБ. Это значительный шаг в сторону доступности высокопроизводительных LLM для локального использования, так как ранее для работы подобных архитектур требовались серверные мощности с кратно большим объемом видеопамяти. Hacker News · Инференс и железо Энергоэффективность нейропроцессоров: бенчмарк Memryx MX3 на граничных устройствах Исследование производительности и энергопотребления специализированного ИИ-ускорителя Memryx MX3 демонстрирует возможности запуска глубоких нейронных сетей на периферийных устройствах. Автор тестирует чип в задачах инференса, сравнивая показатели энергоэффективности и задержки с традиционными решениями, что критически важно для развертывания автономных агентных систем вне облачной инфраструктуры и обеспечения работы ИИ в условиях ограниченного питания.

← Все материалы