Hacker News · 27.06.2026 ·Инференс и железо

Запуск модели Qwen 3.5 прямо в браузере через WebGPU

Сообщество webml представило реализацию модели Qwen 3.5, работающую непосредственно в браузере с использованием технологии WebGPU. Это решение позволяет выполнять инференс нейросети на стороне клиента без необходимости отправки данных на сервер или установки тяжелого локального ПО. Технология обеспечивает высокую скорость генерации текста, используя вычислительные мощности видеокарты пользователя через стандартный веб-интерфейс.

Использование WebGPU открывает новые возможности для создания легковесных ИИ-приложений, которые не требуют сложной серверной инфраструктуры. Модель работает в изолированной среде браузера, что снижает задержки при обработке запросов и обеспечивает приватность данных, так как вся вычислительная нагрузка ложится на локальное оборудование пользователя. Это значимый шаг в сторону демократизации доступа к мощным языковым моделям.

Подобный подход к инференсу позволяет интегрировать сложные агентные системы и чат-боты в веб-сервисы с минимальными затратами на облачные вычисления. Разработчики могут встраивать полноценные модели в свои проекты, используя стандартные API браузеров, что упрощает масштабирование и снижает порог входа для внедрения генеративного ИИ в пользовательские интерфейсы.

Ключевые факты

Реализация основана на модели Qwen 3.5, оптимизированной для работы в браузере.
Технология WebGPU обеспечивает аппаратное ускорение вычислений через графический процессор.
Инференс выполняется полностью на стороне клиента без обращения к внешним API.
Проект доступен в виде интерактивного пространства на платформе Hugging Face.
Решение минимизирует затраты на серверную инфраструктуру и облачные вычисления.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Инференс и железо Запуск мультимодальной модели LFM-2.0 через WebGPU в браузере Liquid AI представила реализацию мультимодальной модели LFM-2.0, работающую полностью в браузере через технологию WebGPU. Решение позволяет выполнять инференс нейросети на стороне клиента без необходимости обращения к серверным мощностям. Это открывает возможности для создания легковесных агентных интерфейсов и интерактивных приложений, требующих обработки изображений и текста непосредственно на устройстве пользователя с минимальной задержкой. Hacker News · Инференс и железо Запуск модели Gemma 2 2B в браузере с высокой скоростью генерации Разработчики представили реализацию модели Gemma 2 2B, оптимизированную для работы непосредственно в браузере через WebGPU. Использование специализированных ядер позволило достичь скорости генерации текста на уровне 255 токенов в секунду. Это решение демонстрирует возможности локального исполнения нейросетей на клиентских устройствах без необходимости обращения к облачным серверам. Hacker News · Инференс и железо FlashQwen – новый CUDA-движок для ускоренного инференса Qwen3 Разработчики представили FlashQwen – инференс-движок для модели Qwen3, написанный с нуля на CUDA. Это решение направлено на оптимизацию работы с моделями большого языка, особенно в условиях ограниченных ресурсов. FlashQwen использует современные методы ускорения вычислений, включая кэширование и оптимизацию ядра CUDA, что позволяет значительно сократить время инференса. Hacker News · Машинное обучение Реализация нейронных клеточных автоматов на WebGPU Нейронные клеточные автоматы (NCA) представляют собой вычислительную модель, где локальные правила взаимодействия между соседними ячейками сетки приводят к возникновению сложных глобальных паттернов и самоорганизующихся структур. В отличие от классических клеточных автоматов, правила в NCA определяются нейронной сетью, что позволяет системе обучаться выполнению конкретных задач, таких как генерация изображений, морфогенез или восстановление поврежденных данных. Simon Willison's Weblog · Инференс и железо Запуск легковесной модели Moebius 0.2B в браузере Представлена модель Moebius, предназначенная для качественного заполнения областей на изображениях (inpainting). Несмотря на компактный размер в 0,2 миллиарда параметров, архитектура демонстрирует эффективность, сопоставимую с гораздо более тяжелыми решениями уровня 10 миллиардов параметров. Изначально модель требовала для работы среды PyTorch и графических ускорителей NVIDIA с поддержкой CUDA. Hacker News · Инференс и железо Qwen 3.6 93B на двух RTX 3090 NVLink: 187 токенов в секунду Команда Augmented Reality Virtual Reality (AR VR) опубликовала результаты тестирования модели Qwen 3.6 93B с использованием MTP (Multi-Query Tensor Parallelism) на конфигурации из двух видеокарт RTX 3090 с NVLink. В результате удалось достичь скорости инференса в 187 токенов в секунду. Это значительное улучшение по сравнению с предыдущими показателями, что делает модель более пригодной для локального использования, включая разработку ИИ-агентов. Hacker News · Инференс и железо Проблемы запуска LLM в браузере через WebGPU Запуск локальных языковых моделей в браузере с использованием WebGPU сталкивается с серьезными ограничениями, которые выходят за рамки простого определения поддержки API. Разработчики, пытающиеся внедрить инференс моделей на мобильных устройствах, обнаружили, что наличие поддержки WebGPU не гарантирует стабильную работу нейросетей. Основная проблема кроется в различиях между спецификациями API и их реальной реализацией в конкретных браузерах и на мобильных чипсетах. Hacker News · Инфраструктура для агентов Ludion: маршрутизация ИИ-инференса на основе производительности WebGPU Ludion представляет собой инструмент для оптимизации инференса моделей, который динамически маршрутизирует запросы на основе реальных показателей производительности WebGPU в браузере. Система анализирует поведение графического ускорителя в конкретной среде пользователя, чтобы подбирать наиболее эффективные параметры запуска моделей, минимизируя задержки и повышая стабильность работы нейросетей непосредственно на клиентских устройствах без обращения к серверу. Simon Willison's Weblog · Модели и релизы Qwen3.6-27B: эффективная локальная модель для кодинга Разработчик Georgi Gerganov поделился опытом использования локальной модели Qwen3.6-27B для задач программирования. В течение последнего месяца и полу он активно применял её на M2 Ultra и RTX 5090, отмечая её полезность в повседневных задачах. Hugging Face - Blog · Инференс и железо Waypoint-1.5: генерация миров на обычных GPU Hugging Face представила обновлённую версию Waypoint-1.5 — модели генерации 3D-миров, оптимизированной для работы на потребительских GPU. Новая версия поддерживает более детализированные и сложные сцены, сохраняя при этом высокую скорость рендеринга. Это важно для разработчиков ИИ-агентов, так как позволяет интегрировать генерацию 3D-контента в локальные системы без необходимости использования мощных серверов.

← Все материалы