Команда MLX представила MLX-Optiq — инструмент для переноса больших языковых моделей (LLM) на устройства Apple Silicon с поддержкой смешанной точности. Это решение позволяет значительно сократить потребление памяти и вычислительных ресурсов при инференсе моделей, что особенно важно для мобильных и встраиваемых устройств.

MLX-Optiq использует подход mixed-precision quantization, который адаптирует точность вычислений для каждого слоя модели индивидуально. Это позволяет сохранить качество работы модели при минимизации накладных расходов. В результате модели, такие как Llama 2 7B, могут запускаться на устройствах Apple Silicon с минимальными задержками и энергопотреблением.

Для разработчиков ИИ-агентов, особенно тех, кто работает над мобильными или встраиваемыми решениями, MLX-Optiq открывает новые возможности. Теперь можно развертывать сложные модели на устройствах с ограниченными ресурсами, что делает ИИ-агентов более доступными и эффективными в реальных условиях использования.

Проект MLX-Optiq доступен на GitHub, и его код можно использовать для оптимизации работы моделей на Apple Silicon. Это важный шаг в развитии инференса на мобильных устройствах, который может значительно расширить сферу применения ИИ-агентов.