Hacker News · 14.06.2026 ·Инференс и железо

Qwen 3.6 93B на двух RTX 3090 NVLink: 187 токенов в секунду

Команда Augmented Reality Virtual Reality (AR VR) опубликовала результаты тестирования модели Qwen 3.6 93B с использованием MTP (Multi-Query Tensor Parallelism) на конфигурации из двух видеокарт RTX 3090 с NVLink. В результате удалось достичь скорости инференса в 187 токенов в секунду. Это значительное улучшение по сравнению с предыдущими показателями, что делает модель более пригодной для локального использования, включая разработку ИИ-агентов.

Qwen 3.6 93B — это одна из самых крупных моделей, доступных в открытом доступе, и её эффективное использование на потребительском железе открывает новые возможности для создания мощных локальных ИИ-сервисов. MTP позволяет распределять вычисления между несколькими GPU, что особенно важно для моделей такого размера.

Для разработчиков ИИ-агентов, таких как Jarv, это важное достижение. Возможность запуска крупных моделей на доступном железе снижает затраты на инфраструктуру и упрощает развёртывание агентов. Кроме того, локальный инференс обеспечивает лучшую защиту данных и снижает зависимость от облачных сервисов.

Результаты тестирования доступны на GitHub, что позволяет другим разработчикам воспроизвести и улучшить эти настройки. Это важный шаг в направлении демократизации доступа к мощным ИИ-моделям и их интеграции в различные приложения.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Инференс и железо Бенчмарк производительности Qwen 3.6 35B MoE на потребительской видеокарте RTX 3090 Опубликован детальный разбор работы модели Qwen 3.6 35B MoE на потребительском железе. Несмотря на 35 миллиардов параметров, архитектура Mixture-of-Experts позволяет задействовать лишь 3 миллиарда активных параметров на токен. Тесты на видеокарте RTX 3090 с 24 ГБ видеопамяти демонстрируют высокую скорость генерации и эффективность использования ресурсов при локальном запуске современных LLM. Hacker News · Модели и релизы Анализ производительности модели Qwen 2.5 32B для локальной разработки Выпуск модели Qwen 2.5 32B стал значимым событием для локального инференса, предлагая оптимальный баланс между вычислительными требованиями и качеством генерации. Модель демонстрирует высокую эффективность в задачах программирования и логического вывода, сопоставимую с более крупными проприетарными решениями, что делает её предпочтительным выбором для запуска на потребительском железе без потери точности ответов. Hacker News · Инференс и железо FlashQwen – новый CUDA-движок для ускоренного инференса Qwen3 Разработчики представили FlashQwen – инференс-движок для модели Qwen3, написанный с нуля на CUDA. Это решение направлено на оптимизацию работы с моделями большого языка, особенно в условиях ограниченных ресурсов. FlashQwen использует современные методы ускорения вычислений, включая кэширование и оптимизацию ядра CUDA, что позволяет значительно сократить время инференса. Hacker News · Инференс и железо Высокопроизводительный движок для запуска Qwen 3.6 35B на RTX 5090 Разработан специализированный инференс-движок на C/CUDA, оптимизированный для работы с моделью Qwen 3.6 35B на потребительском и профессиональном оборудовании нового поколения. Решение сфокусировано на минимизации задержек и максимизации пропускной способности при выполнении вычислений на архитектуре Blackwell и видеокартах RTX 5090, что позволяет эффективно использовать потенциал современных GPU для локального запуска тяжелых LLM. Simon Willison's Weblog · Модели и релизы Qwen3.6-27B: эффективная локальная модель для кодинга Разработчик Georgi Gerganov поделился опытом использования локальной модели Qwen3.6-27B для задач программирования. В течение последнего месяца и полу он активно применял её на M2 Ultra и RTX 5090, отмечая её полезность в повседневных задачах. Hacker News · Инференс и железо Релиз 2-битной квантованной модели Qwen3.6-35B-A3B с сохранением точности FP8 Разработчики представили 2-битную квантованную версию модели Qwen3.6-35B-A3B, которая демонстрирует практически полное сохранение точности на уровне формата FP8. Использование экстремального сжатия до 2 бит на параметр позволяет значительно снизить требования к видеопамяти при запуске крупных языковых моделей, делая их доступными для работы на потребительском оборудовании без существенной потери качества генерации ответов. Hacker News · Инференс и железо Запуск модели Qwen 3.5 прямо в браузере через WebGPU Сообщество webml представило реализацию модели Qwen 3.5, работающую непосредственно в браузере с использованием технологии WebGPU. Это решение позволяет выполнять инференс нейросети на стороне клиента без необходимости отправки данных на сервер или установки тяжелого локального ПО. Технология обеспечивает высокую скорость генерации текста, используя вычислительные мощности видеокарты пользователя через стандартный веб-интерфейс. Hacker News · Инференс и железо Запуск локальных LLM на встроенной графике AMD Ryzen 8700G Исследование демонстрирует возможности запуска современных языковых моделей на встроенном графическом ядре процессора AMD Ryzen 8700G. Использование iGPU Radeon 780M позволяет достичь производительности 13–15 токенов в секунду для модели Gemma 4 и 9–12 токенов для Qwen 3.6, что делает интегрированные решения жизнеспособным вариантом для локального инференса без необходимости в дискретных видеокартах. Hacker News · Инференс и железо Релиз Qwen-AgentWorld-35B-A3B: локальная модель мира для агентных систем Представлена модель Qwen-AgentWorld-35B-A3B — специализированная «модель мира», оптимизированная для работы на потребительском оборудовании. Архитектура использует 35 миллиардов параметров с активным использованием 3 миллиардов на токен, что позволяет эффективно решать задачи агентного планирования и взаимодействия с внешней средой, сохраняя при этом высокую скорость генерации и низкие требования к оперативной памяти. NVIDIA Technical Blog · Инференс и железо Квантование моделей для ускоренного инференса на NVIDIA TensorRT NVIDIA представила новый подход к квантованию моделей, позволяющий превращать FP8-чекпоинты в высокопроизводительные инференс-движки с использованием TensorRT. Этот метод оптимизирует модели для работы на графических процессорах, что особенно важно для разработчиков ИИ-агентов, где скорость и эффективность вычислений играют ключевую роль.

← Все материалы