Разработчик представил легковесную реализацию инференса для семейства моделей Gemma 3, написанную на чистом C++. Проект использует фреймворк Apple Metal для аппаратного ускорения вычислений на графических процессорах Apple Silicon. Решение позволяет запускать современные языковые модели локально с высокой производительностью, минимизируя зависимости от тяжелых библиотек и сторонних сред исполнения, что упрощает интеграцию в нативные приложения.

Данная реализация ориентирована на максимальную эффективность при работе с архитектурой Apple. Отказ от сложных программных прослоек в пользу прямого взаимодействия с Metal API обеспечивает низкие задержки при генерации токенов. Проект демонстрирует возможность эффективного развертывания моделей последнего поколения на потребительском оборудовании без необходимости использования громоздких фреймворков машинного обучения.

Код проекта открыт и доступен для интеграции в сторонние системы, требующие локального запуска ИИ-моделей с минимальным потреблением ресурсов. Это решение расширяет возможности разработчиков по созданию автономных агентных систем, работающих непосредственно на устройствах пользователей без обращения к облачным API.

Ключевые факты

  • Реализация инференса выполнена на чистом C++ без использования тяжелых зависимостей.
  • Поддержка аппаратного ускорения реализована через Apple Metal API для чипов Apple Silicon.
  • Проект обеспечивает нативную работу с семейством моделей Gemma 3 от Google.
  • Код доступен в открытом репозитории для использования в локальных агентных системах.