Инференс и железо
llm 0.32a3: новый релиз с поддержкой Claude Fable 5
Вышел новый релиз llm 0.32a3, который включает поддержку модели Claude Fable 5 от Anthropic. Это значительное обновление, так как llm — это фреймворк для локального запуска больших языковых моделей, что делает его потенциально полезным для разработки ИИ-агентов, таких как Jarv.
Альтернативы CUDA и OpenCL для инференса ИИ
Компания Modular, специализирующаяся на разработке инфраструктуры для ИИ, выпустила пятую часть своего исследования, посвящённую демократизации вычислительных ресурсов для ИИ. В этом материале рассматриваются альтернативы CUDA и OpenCL, которые могут быть полезны для разработчиков ИИ-агентов, особенно в условиях ограниченного доступа к специализированному железу.
Квантование моделей для ускоренного инференса на NVIDIA TensorRT
NVIDIA представила новый подход к квантованию моделей, позволяющий превращать FP8-чекпоинты в высокопроизводительные инференс-движки с использованием TensorRT. Этот метод оптимизирует модели для работы на графических процессорах, что особенно важно для разработчиков ИИ-агентов, где скорость и эффективность вычислений играют ключевую роль.
Ускорение обучения моделей с JAX и MaxText на NVIDIA Blackwell
NVIDIA представила новый подход к ускорению обучения больших языковых моделей (LLM) с использованием фреймворка JAX и библиотеки MaxText на платформе NVIDIA Blackwell. Основное внимание уделено увеличению пропускной способности, что критически важно при обучении моделей на триллионах токенов и тысячах ускорителей.
Apple открыла репозиторий с инструментами для локального ИИ
Apple выпустила открытый репозиторий coreai-models на GitHub, который содержит рецепты экспорта моделей, Python-примитивы и утилиты для работы с ИИ на устройствах. Это значимый шаг, так как Apple активно продвигает локальные вычисления для ИИ, что особенно важно для разработчиков, работающих над автономными агентами.
ZML: фреймворк для локального запуска моделей
ZML (Zero to Metal) — это фреймворк, который позволяет запускать большие языковые модели на локальных устройствах, включая ноутбуки и серверы. Он оптимизирован для работы с ограниченными ресурсами, что делает его полезным для разработчиков, которые хотят развернуть модели без облачных сервисов.
MicroPython и WASM для безопасного выполнения кода в Datasette Agent
Разработчик Simon Willison представил новый подход к безопасному выполнению Python-кода в песочнице, используя MicroPython и WebAssembly (WASM). Его решение, реализованное в виде пакета micropython-wasm, позволяет запускать код в изолированной среде, что критически важно для агентов, работающих с пользовательскими скриптами.
Datasette Agent: безопасное выполнение Python-кода в песочнице
Разработчик Simon Willison представил альфа-версию datasette-agent-micropython 0.1a0 — инструмента, позволяющего безопасно генерировать и выполнять Python-код с использованием песочницы на основе MicroPython. Проект направлен на интеграцию с Datasette Agent, инструментом для работы с базами данных через LLM.
Новые инструменты от Microsoft и NVIDIA для запуска ИИ-агентов на Windows
Microsoft и NVIDIA представили новые инструменты, которые позволяют запускать ИИ-агентов на Windows ПК. Это важный шаг для разработчиков, так как ранее подобные решения требовали сложной настройки и мощного оборудования.
Thunderbolt-ibverbs: InfiniBand для локального запуска моделей
Разработчики из Hellas AI представили проект thunderbolt-ibverbs, который позволяет использовать InfiniBand — высокоскоростную сетевую технологию, ранее доступную только в дата-центрах — на потребительском оборудовании через интерфейс Thunderbolt. Это открывает новые возможности для локального запуска крупных языковых моделей и других вычислительно интенсивных задач.
NVIDIA JetPack 7.2 для развёртывания ИИ-агентов на краю сети
NVIDIA представила JetPack 7.2 — обновление для платформы Jetson, предназначенной для развёртывания ИИ-агентов на устройствах с ограниченными ресурсами. Новая версия оптимизирует работу агентов на краю сети, что особенно важно для задач, требующих низкой задержки и автономности.
Как Together оптимизировал MiniMax-M3 для эффективного инференса
Компания Together.ai представила подход к оптимизации работы модели MiniMax-M3, позволяющий эффективно обрабатывать контекст из 1 миллиона токенов и поддерживать мультимодальность. В основе решения лежит использование KV-block-major sparse attention, что позволяет значительно сократить вычислительные затраты при работе с большими контекстами.
Запуск локальных ИИ-агентов на NVIDIA DGX Spark
NVIDIA представила решение DGX Spark, предназначенное для запуска локальных ИИ-агентов с поддержкой быстрых моделей и мультинодового кластерирования. Это решение отвечает на растущие требования к вычислительным ресурсам, связанные с автономными агентами, которые требуют поддержания больших контекстных окон и выполнения параллельных задач.
Reg-Factory: оптимизация инференса моделей на GPU
Репозиторий Reg-Factory от tiantianGPU представляет собой фреймворк для оптимизации инференса моделей на GPU. Проект фокусируется на ускорении работы моделей за счёт применения различных техник, включая квантование и оптимизацию вычислений. Это особенно важно для разработчиков ИИ-агентов, так как позволяет значительно снизить затраты на вычисления и повысить производительность.
DynoSim: инструмент для оптимизации развёртывания LLM
NVIDIA представила DynoSim — инструмент для моделирования и оптимизации развёртывания больших языковых моделей (LLM). Основная проблема при развёртывании LLM заключается в необходимости балансировать множество параметров: выбор бэкенда модели, конфигурацию тензорного параллелизма, распределение между префиллом и декодированием, количество рабочих процессов и многое другое. DynoSim позволяет автоматически исследовать комбинации этих параметров и находить оптимальные конфигурации для конкретных сценариев использования.
Масштабирование ИИ-систем до триллионов операций
В 2024 году инфраструктура для запуска ИИ-моделей сталкивается с новыми вызовами. Видео от команды, работающей над системами, способными обрабатывать триллионы операций с плавающей точкой, демонстрирует подходы к масштабированию вычислений. Это особенно важно для локального инференса крупных моделей, что напрямую касается разработки ИИ-агентов.
Запуск мультимодальных моделей на GPU NVIDIA
NVIDIA представила обновление для своей платформы Step 3.7 Flash, которое позволяет запускать мультимодальные ИИ-модели на графических процессорах с повышенной производительностью. Это решение ориентировано на корпоративных пользователей и предоставляет инструменты для работы с изображениями, документами, видео и другими типами данных.
Together AI создала самый быстрый стек для распознавания речи
Together AI представила решение для распознавания речи (ASR), которое, по их заявлению, является самым быстрым в мире. Компания подчеркивает, что подход к ASR рассматривался как задача полного пути системы, а не только как проблема инференса на GPU.
NVIDIA Dynamo Snapshot ускоряет запуск инференса в Kubernetes
NVIDIA представила Dynamo Snapshot — технологию, решающую проблему холодного старта в инференсных развёртываниях на Kubernetes. Это особенно важно для динамически масштабируемых сервисов, где задержки при запуске новых экземпляров могут снижать производительность.
NVIDIA Blackwell установила рекорд в инференсе LLM для финансов
NVIDIA Blackwell установила новый рекорд в инференсе больших языковых моделей (LLM) для финансовых приложений, согласно результатам тестов STAC-AI. Новые графические процессоры Blackwell показали значительное улучшение производительности по сравнению с предыдущими поколениями, что делает их идеальными для обработки сложных финансовых данных.
Reachy Mini: локальный ИИ-агент с открытым исходным кодом
Компания Pollen Robotics представила Reachy Mini — локальный ИИ-агент с открытым исходным кодом, который может работать на обычном ноутбуке. Это важный шаг в развитии локальных решений для ИИ-агентов, так как многие современные системы требуют мощных серверов или облачных вычислений.
Синхронизация дельта-весов для запуска гигантских моделей
Команда Hugging Face представила новую технологию Delta Weight Sync в TRL (Transformers Reinforcement Learning), которая позволяет эффективно синхронизировать веса моделей с триллионами параметров. Это особенно важно для локального запуска крупных моделей, где традиционные методы требуют значительных вычислительных ресурсов.
NVIDIA CUDA Tile для оптимизации GPU-ядер в C++
NVIDIA представила новую возможность для разработчиков — CUDA Tile, которая позволяет создавать высокопроизводительные GPU-ядра прямо внутри существующих C++ кодовых баз. Эта технология ориентирована на оптимизацию вычислений с использованием плиточной структуры, что особенно важно для задач, требующих интенсивной обработки данных на графических процессорах.
NVIDIA CUDA 13.3 ускоряет разработку ИИ-агентов
NVIDIA выпустила обновление CUDA 13.3, которое значительно расширяет возможности разработчиков, работающих с GPU. В новой версии появилась поддержка тайловой программирования на C++, что позволяет более эффективно использовать ресурсы графических процессоров. Это особенно важно для задач, связанных с обработкой больших массивов данных, таких как инференс моделей ИИ.