Инференс и железо
Корпоративные ИИ-агенты уходят с серверов
Компании всё чаще переходят на локальный запуск ИИ-агентов, отказываясь от облачных серверов. Это связано с ростом требований к безопасности, конфиденциальности и контролю над данными. Локальные решения позволяют избежать утечек и снизить зависимость от третьих сторон, что особенно важно для корпоративных клиентов.
MLX-Optiq: квантование LLM для Apple Silicon
Команда MLX представила MLX-Optiq — инструмент для переноса больших языковых моделей (LLM) на устройства Apple Silicon с поддержкой смешанной точности. Это решение позволяет значительно сократить потребление памяти и вычислительных ресурсов при инференсе моделей, что особенно важно для мобильных и встраиваемых устройств.
Индексация 669 ГБ видео с помощью локальных моделей на M1 Max
Автор проекта успешно индексировал 669 ГБ видео с GoPro камер с использованием локальных ML-моделей на компьютере с процессором M1 Max. Это демонстрирует возможность обработки больших объемов данных без использования облачных сервисов, что может быть полезно для разработки ИИ-агентов, работающих с мультимедийными данными.
Caddy для zeroserve: 3x скорость и 70% меньше задержек
Разработчики zeroserve анонсировали совместимость с Caddy, что позволяет значительно ускорить работу сервера для локального инференса моделей. Новый вариант демонстрирует трёхкратное увеличение пропускной способности и снижение задержек на 70% по сравнению с предыдущими версиями.
Qwen 3.6 93B на двух RTX 3090 NVLink: 187 токенов в секунду
Команда Augmented Reality Virtual Reality (AR VR) опубликовала результаты тестирования модели Qwen 3.6 93B с использованием MTP (Multi-Query Tensor Parallelism) на конфигурации из двух видеокарт RTX 3090 с NVLink. В результате удалось достичь скорости инференса в 187 токенов в секунду. Это значительное улучшение по сравнению с предыдущими показателями, что делает модель более пригодной для локального использования, включая разработку ИИ-агентов.
InferenceFS: файловая система для удобного инференса
InferenceFS — это файловая система, которая позволяет удобно работать с данными при инференсе моделей. Она предоставляет интерфейс, похожий на обычную файловою систему, но с возможностью кэширования, управления версиями и оптимизации доступа к данным. Это особенно полезно для разработчиков ИИ-агентов, так как позволяет избежать проблем с управлением данными при инференсе.
Cranelift: компилятор для высокопроизводительного инференса
Cranelift — это высокопроизводительный компилятор, разработанный для работы с веб-ассемблером (WASM) и другими низкоуровневыми языками. Он используется в таких проектах, как Rust и WebAssembly, и может быть полезен для оптимизации работы ИИ-агентов, особенно при локальном инференсе.
Home Opus: локальный запуск фронтирных моделей после запрета Fable 5
Команда zanirou представила Home Opus — проект, позволяющий развернуть фронтирные модели ИИ локально после того, как Fable 5 был заблокирован. Это решение особенно актуально для разработчиков, которым важно иметь доступ к мощным моделям без зависимости от облачных сервисов.
AI inequality: от GPU-poor к token-poor
В статье на Substack автор Адриан Роча рассматривает эволюцию неравенства в доступе к ИИ-технологиям. Если раньше основным барьером был доступ к мощным GPU, то теперь ключевым ограничением становятся токены — стоимость вычислений на больших языковых моделях (LLM). Это создает новую форму цифрового разрыва, где даже при наличии вычислительных ресурсов использование ИИ остается недоступным для многих из-за высоких затрат на инференс.
Прогноз локального инференса моделей к 2026 году
К 2026 году локальный инференс моделей может стать значительно доступнее и мощнее. По данным анализа, к этому времени модели размером до 100 миллиардов параметров смогут работать на потребительских устройствах, включая ноутбуки и смартфоны. Это станет возможным благодаря развитию аппаратного обеспечения, оптимизации алгоритмов и появлению новых архитектур, которые снижают требования к вычислительным ресурсам.
FlashAttention-4 ускоряет инференс моделей
Команда Modal выпустила обновлённую версию FlashAttention-4, которая значительно ускоряет инференс трансформеров. Это особенно важно для агентов, работающих с большими языковыми моделями, где скорость обработки запросов напрямую влияет на пользовательский опыт.
Как запускать ИИ-провайдера за $6 в месяц на 4x RTX 3090
Разработчик поделился своим опытом запуска ИИ-провайдера с ограниченным бюджетом. Он использует четыре видеокарты RTX 3090, что позволяет ему предлагать услуги по доступной цене — всего $6 в месяц. Это решение может быть полезным для тех, кто хочет развернуть собственные модели или тестировать их без значительных затрат.
Почему приватный инференс для агентов всё ещё не приватен
В статье на Cryptography Engineering поднимается важный вопрос: насколько приватным может быть локальный инференс для ИИ-агентов, даже если данные не уходят в облако. Автор, известный криптограф и инженер, рассматривает пример Siri и объясняет, почему даже локальные вычисления могут быть уязвимы.
Llama.cpp: локальный запуск LLM на C/C++
Llama.cpp — это проект, который позволяет запускать большие языковые модели (LLM) локально на устройствах с ограниченными ресурсами. Разработанный на C/C++, он обеспечивает высокую производительность и эффективность, что делает его привлекательным для разработчиков, работающих с ИИ-агентами.
Pyodide 314.0: публикация WASM-пакетов на PyPI для локального запуска
В новой версии Pyodide 314.0 появилась возможность публиковать Python-пакеты, собранные для Pyodide или других совместимых рантаймов, напрямую на PyPI. Это значительный шаг вперёд, так как ранее поддерживать, собирать и хостить более 300 пакетов приходилось самим разработчикам Pyodide. Теперь пакеты можно устанавливать в рантайме, что упрощает интеграцию и использование Python-библиотек в веб-приложениях.
Luau-wasm 0.1a0: Lua в WebAssembly для Pyodide
Вышел первый релиз luau-wasm 0.1a0 — это компилятор Lua в WebAssembly (WASM), который позволяет запускать Lua-код в браузере или в Pyodide — Python-среде, работающей в браузере. Pyodide уже используется для запуска Python-кода в браузере, а теперь с luau-wasm можно запускать и Lua-скрипты.
Slopsome — калькулятор VRAM и база токенов в секунду для локальных моделей
Slopsome — это инструмент, который помогает оценить, какие локальные модели можно запустить на вашем оборудовании. Он учитывает объём VRAM и скорость обработки токенов в секунду (tok/s), что критически важно для выбора оптимальной модели для инференса.
Разделение модели на микроконтроллеры для инференса
Инженеры из команды Harmansingh4163-ai представили проект, в котором удалось развернуть модель с 42 миллионами параметров на четыре микроконтроллера ESP-32-S3. Это достижение демонстрирует, что даже на ограниченных ресурсах можно выполнять инференс относительно крупных моделей, что открывает новые возможности для разработки ИИ-агентов в условиях жестких аппаратных ограничений.
Snapcompact: компактный инференс моделей локально и бесплатно
Команда Can.AI представила Snapcompact — новый подход к компактификации моделей, который позволяет запускать большие языковые модели локально с минимальными затратами ресурсов. Snapcompact использует инновационные методы компрессии, которые сохраняют точность моделей при значительном уменьшении их размера. Это особенно важно для разработчиков ИИ-агентов, так как позволяет развертывать сложные модели на устройствах с ограниченными ресурсами, включая ноутбуки и мобильные устройства.
Оптимизация INT8 вычислений для диффузионных трансформеров на потребительских GPU
Исследователи из Ideogram представили новый подход к оптимизации инференса диффузионных трансформеров на потребительских GPU. В статье, опубликованной на arXiv, они показывают, что посттрейнинговая квантование в INT8 (W8A8) часто оказывается медленнее, чем альтернативы в FP8 и NF4, несмотря на ожидания. Это связано с тем, что в текущих реализациях веса и активации квантуются только для того, чтобы сразу же деквантоваться обратно в bf16 и выполнять матричное умножение в этом формате.
MiniMax M3 и NVIDIA для агентных workflows с длинным контекстом
NVIDIA и MiniMax представили решение для развёртывания агентных workflows с поддержкой длинного контекста. Это важно для разработчиков, которым приходится собирать фрагментированные пайплайны из разных моделей для текста, изображения и других задач.
Адаптивная компрессия токенов для временных рядов в LLM
Исследователи из MIT и Google Research предложили новый подход к обработке временных рядов (TS) в языковых моделях. В статье, опубликованной на arXiv, они утверждают, что традиционный подход к токенизации, где числовые и текстовые данные обрабатываются одинаково, неэффективен. Временные ряды и текст имеют разную структуру информации, и их обработка должна учитывать эти различия.
Оптимизация MLP в PyTorch для ускорения инференса
В новом посте на Hugging Face продолжается серия о профилировании и оптимизации PyTorch, на этот раз с акцентом на слияние слоёв в многослойных перцептронах (MLP). Авторы делятся подходами к ускорению вычислений, которые могут быть критичны для локального инференса моделей, особенно в условиях ограниченных ресурсов.
GitHub Copilot CLI получает поддержку LSP для интеллектуального анализа кода
GitHub Copilot CLI теперь поддерживает интеграцию с серверами Language Server Protocol (LSP). Это позволяет заменить примитивные методы поиска и декомпиляции кода на более точный анализ с использованием интеллектуальных инструментов.