Команда Augmented Reality Virtual Reality (AR VR) опубликовала результаты тестирования модели Qwen 3.6 93B с использованием MTP (Multi-Query Tensor Parallelism) на конфигурации из двух видеокарт RTX 3090 с NVLink. В результате удалось достичь скорости инференса в 187 токенов в секунду. Это значительное улучшение по сравнению с предыдущими показателями, что делает модель более пригодной для локального использования, включая разработку ИИ-агентов.
Qwen 3.6 93B — это одна из самых крупных моделей, доступных в открытом доступе, и её эффективное использование на потребительском железе открывает новые возможности для создания мощных локальных ИИ-сервисов. MTP позволяет распределять вычисления между несколькими GPU, что особенно важно для моделей такого размера.
Для разработчиков ИИ-агентов, таких как Jarv, это важное достижение. Возможность запуска крупных моделей на доступном железе снижает затраты на инфраструктуру и упрощает развёртывание агентов. Кроме того, локальный инференс обеспечивает лучшую защиту данных и снижает зависимость от облачных сервисов.
Результаты тестирования доступны на GitHub, что позволяет другим разработчикам воспроизвести и улучшить эти настройки. Это важный шаг в направлении демократизации доступа к мощным ИИ-моделям и их интеграции в различные приложения.