Проект Espresso позволяет выполнять инференс трансформерных моделей непосредственно на Apple Neural Engine (ANE), минуя стандартные графические ускорители. Это решение оптимизирует работу нейросетей на устройствах Apple Silicon, обеспечивая значительное снижение энергопотребления и повышение производительности при выполнении задач машинного обучения за счет использования специализированного аппаратного блока, предназначенного для нейронных вычислений.
Традиционно разработчики, работающие с архитектурой Apple, полагаются на Metal Performance Shaders (MPS) для запуска моделей на GPU. Использование ANE открывает доступ к более энергоэффективному выполнению операций, что критически важно для локального запуска LLM и других тяжелых моделей на ноутбуках и мобильных устройствах. Инструмент предоставляет низкоуровневый доступ к аппаратным ресурсам, позволяя эффективнее управлять вычислительными нагрузками.
Реализация опирается на интеграцию с фреймворками, которые позволяют транслировать операции графа вычислений в формат, понятный для ANE. Это сокращает задержки при обработке данных и позволяет высвободить ресурсы GPU для графических задач, что делает локальный инференс более стабильным и быстрым в условиях ограниченных ресурсов оперативной памяти и теплового пакета системы.
Ключевые факты
- Espresso обеспечивает прямой доступ к Apple Neural Engine для выполнения операций трансформерных моделей.
- Использование ANE вместо GPU позволяет существенно снизить нагрев и энергопотребление системы при инференсе.
- Решение ориентировано на архитектуру Apple Silicon (чипы серии M1, M2, M3 и новее).
- Инструмент позволяет оптимизировать производительность локальных моделей без необходимости использования облачных мощностей.