Hacker News · 20.06.2026 ·Инференс и железо

Alloy: новый бэкенд для запуска нейросетей на чипах Apple Silicon

Представлен Alloy — специализированный бэкенд для фреймворка PyTorch, оптимизированный для работы с нейронными сетями на устройствах Apple с процессорами серии M. Инструмент позволяет выполнять инференс моделей непосредственно на графических ядрах Apple Silicon, используя возможности Metal Performance Shaders для ускорения вычислений.

Основная задача проекта заключается в снижении задержек при выполнении операций с тензорами и повышении эффективности использования памяти на архитектуре ARM. В отличие от стандартных решений, Alloy фокусируется на минимизации накладных расходов при передаче данных между центральным и графическим процессорами, что критично для работы с локальными LLM и другими тяжелыми моделями в реальном времени.

Реализация поддерживает основные операции, необходимые для запуска современных архитектур трансформеров. Использование Alloy позволяет разработчикам интегрировать локальный инференс в приложения для macOS и iOS, обеспечивая более высокую производительность по сравнению с универсальными вычислительными библиотеками общего назначения.

Источник: Hacker News

Похожие материалы

Hacker News · Инференс и железо ANEForge: прямой доступ к Apple Neural Engine через Python Исследователи представили ANEForge — программный стек, позволяющий выполнять вычисления непосредственно на Apple Neural Engine (ANE), минуя стандартные высокоуровневые фреймворки. Инструмент предоставляет интерфейс на языке Python, который транслирует операции в низкоуровневые инструкции, понятные нейронному процессору в чипах Apple Silicon. Hacker News · Инференс и железо Новый движок инференса для macOS 14 и новее Разработчики представили новый движок инференса для macOS 14 и новее. Проект под названием Embershard оптимизирован для работы с моделями машинного обучения на устройствах Apple. Он поддерживает локальный запуск моделей, что позволяет пользователям использовать мощные ИИ-инструменты без необходимости подключения к облачным сервисам. Hacker News · Инференс и железо MLX-Optiq: квантование LLM для Apple Silicon Команда MLX представила MLX-Optiq — инструмент для переноса больших языковых моделей (LLM) на устройства Apple Silicon с поддержкой смешанной точности. Это решение позволяет значительно сократить потребление памяти и вычислительных ресурсов при инференсе моделей, что особенно важно для мобильных и встраиваемых устройств. Hugging Face - Blog · Инференс и железо Transformers переезжает на MLX для ускоренного инференса Hugging Face анонсировал переход библиотеки Transformers на MLX — фреймворк для ускоренного инференса моделей на Apple Silicon. Это важный шаг для разработчиков ИИ-агентов, так как позволяет запускать сложные модели на потребительских устройствах с минимальными затратами. Hacker News · Инференс и железо AMD расширяет поддержку ROCm для чипов Strix Halo Компания AMD официально подтвердила статус полноценной поддержки программной платформы ROCm для своих новых процессоров Strix Halo. Это решение знаменует собой важный сдвиг в стратегии компании, направленный на упрощение работы с высокопроизводительными вычислениями на архитектуре x86 в сочетании с мощной интегрированной графикой. Ранее разработчикам приходилось сталкиваться с ограничениями при запуске специфических ИИ-задач на мобильных чипах, однако теперь программный стек для обучения и инференса моделей становится доступным «из коробки». Hacker News · Инференс и железо Аренда вычислительных мощностей Mac для задач ИИ-инференса Сервис Darkbloom запустил платформу, позволяющую владельцам компьютеров Mac сдавать свои вычислительные мощности в аренду для выполнения задач инференса ИИ-моделей. Система ориентирована на использование ресурсов Apple Silicon, которые демонстрируют высокую энергоэффективность и производительность при работе с локальными нейросетями. Владельцы оборудования получают вознаграждение за предоставление доступа к своим устройствам через облачный интерфейс. Hacker News · Инференс и железо AMD оптимизирует инференс для своих GPU Instinct AMD представила Atom Inference Engine — фреймворк для оптимизации работы моделей машинного обучения на графических процессорах Instinct. Решение сочетает аппаратные и программные компоненты, что позволяет ускорить выполнение задач инференса. Hacker News · Инференс и железо AMD Ryzen AI Halo для разработчиков ИИ AMD представила Ryzen AI Halo — программу для разработчиков ИИ, которая включает доступ к новейшим процессорам с интегрированными нейросетевыми ускорителями. Это решение может значительно ускорить инференс моделей, что особенно важно для локального запуска ИИ-агентов. Hacker News · Инференс и железо Новый компилятор для Edge AI превосходит решения от Google и вендоров Компания DeepGate представила специализированный компилятор, предназначенный для оптимизации нейросетевых моделей при запуске на периферийных устройствах (Edge AI). Инструмент ориентирован на повышение производительности инференса и снижение энергопотребления, что является критическим фактором для работы ИИ вне облачных дата-центров. Разработчики заявляют, что их решение демонстрирует более высокую эффективность по сравнению с популярными стандартными инструментариями, включая проприетарные стеки от производителей аппаратного обеспечения и открытые решения от Google. Hacker News · Инференс и железо AMD оптимизировала вычисления для ИИ-моделей на CDNA4 Компания AMD представила оптимизации для вычислений матричных операций (GEMM) в формате FP8 на архитектуре CDNA4. Это позволит ускорить работу ИИ-моделей на графических процессорах Instinct серии MI300X.

← Все материалы