Hacker News · 05.07.2026 ·Инференс и железо

Запуск трансформеров напрямую на Apple Neural Engine через Espresso

Проект Espresso позволяет выполнять инференс трансформерных моделей непосредственно на Apple Neural Engine (ANE), минуя стандартные графические ускорители. Это решение оптимизирует работу нейросетей на устройствах Apple Silicon, обеспечивая значительное снижение энергопотребления и повышение производительности при выполнении задач машинного обучения за счет использования специализированного аппаратного блока, предназначенного для нейронных вычислений.

Традиционно разработчики, работающие с архитектурой Apple, полагаются на Metal Performance Shaders (MPS) для запуска моделей на GPU. Использование ANE открывает доступ к более энергоэффективному выполнению операций, что критически важно для локального запуска LLM и других тяжелых моделей на ноутбуках и мобильных устройствах. Инструмент предоставляет низкоуровневый доступ к аппаратным ресурсам, позволяя эффективнее управлять вычислительными нагрузками.

Реализация опирается на интеграцию с фреймворками, которые позволяют транслировать операции графа вычислений в формат, понятный для ANE. Это сокращает задержки при обработке данных и позволяет высвободить ресурсы GPU для графических задач, что делает локальный инференс более стабильным и быстрым в условиях ограниченных ресурсов оперативной памяти и теплового пакета системы.

Ключевые факты

Espresso обеспечивает прямой доступ к Apple Neural Engine для выполнения операций трансформерных моделей.
Использование ANE вместо GPU позволяет существенно снизить нагрев и энергопотребление системы при инференсе.
Решение ориентировано на архитектуру Apple Silicon (чипы серии M1, M2, M3 и новее).
Инструмент позволяет оптимизировать производительность локальных моделей без необходимости использования облачных мощностей.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

← Все материалы