Представлен Alloy — специализированный бэкенд для фреймворка PyTorch, оптимизированный для работы с нейронными сетями на устройствах Apple с процессорами серии M. Инструмент позволяет выполнять инференс моделей непосредственно на графических ядрах Apple Silicon, используя возможности Metal Performance Shaders для ускорения вычислений.
Основная задача проекта заключается в снижении задержек при выполнении операций с тензорами и повышении эффективности использования памяти на архитектуре ARM. В отличие от стандартных решений, Alloy фокусируется на минимизации накладных расходов при передаче данных между центральным и графическим процессорами, что критично для работы с локальными LLM и другими тяжелыми моделями в реальном времени.
Реализация поддерживает основные операции, необходимые для запуска современных архитектур трансформеров. Использование Alloy позволяет разработчикам интегрировать локальный инференс в приложения для macOS и iOS, обеспечивая более высокую производительность по сравнению с универсальными вычислительными библиотеками общего назначения.