Hacker News · 04.07.2026 ·Инференс и железо

Запуск моделей Gemma 3 на чистом C++ с ускорением Metal

Разработчик представил легковесную реализацию инференса для семейства моделей Gemma 3, написанную на чистом C++. Проект использует фреймворк Apple Metal для аппаратного ускорения вычислений на графических процессорах Apple Silicon. Решение позволяет запускать современные языковые модели локально с высокой производительностью, минимизируя зависимости от тяжелых библиотек и сторонних сред исполнения, что упрощает интеграцию в нативные приложения.

Данная реализация ориентирована на максимальную эффективность при работе с архитектурой Apple. Отказ от сложных программных прослоек в пользу прямого взаимодействия с Metal API обеспечивает низкие задержки при генерации токенов. Проект демонстрирует возможность эффективного развертывания моделей последнего поколения на потребительском оборудовании без необходимости использования громоздких фреймворков машинного обучения.

Код проекта открыт и доступен для интеграции в сторонние системы, требующие локального запуска ИИ-моделей с минимальным потреблением ресурсов. Это решение расширяет возможности разработчиков по созданию автономных агентных систем, работающих непосредственно на устройствах пользователей без обращения к облачным API.

Ключевые факты

Реализация инференса выполнена на чистом C++ без использования тяжелых зависимостей.
Поддержка аппаратного ускорения реализована через Apple Metal API для чипов Apple Silicon.
Проект обеспечивает нативную работу с семейством моделей Gemma 3 от Google.
Код доступен в открытом репозитории для использования в локальных агентных системах.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

← Все материалы