NVIDIA Technical Blog · 08.06.2026 ·Инференс и железо

Ускорение обучения моделей с JAX и MaxText на NVIDIA Blackwell

NVIDIA представила новый подход к ускорению обучения больших языковых моделей (LLM) с использованием фреймворка JAX и библиотеки MaxText на платформе NVIDIA Blackwell. Основное внимание уделено увеличению пропускной способности, что критически важно при обучении моделей на триллионах токенов и тысячах ускорителей.

Ключевым элементом является использование формата NVFP4, который позволяет значительно ускорить вычисления за счет оптимизации хранения и обработки данных. Это особенно актуально для разработчиков ИИ-агентов, так как позволяет сократить время обучения и снизить затраты на вычислительные ресурсы.

В статье подробно описаны преимущества использования JAX и MaxText в сочетании с архитектурой Blackwell. JAX предоставляет гибкость и производительность для работы с большими моделями, а MaxText оптимизирует процесс обучения за счет специализированных алгоритмов. Это может быть полезно для разработчиков, работающих над локальным инференсом и оркестрацией моделей.

Для команды, занимающейся разработкой ИИ-агента Jarv, этот подход может стать важным инструментом для ускорения обучения и развертывания моделей. Оптимизация пропускной способности и снижение времени обучения позволяют быстрее внедрять новые функции и улучшать качество агентов.

Источник: NVIDIA Technical Blog

Обсудить с ИИ

Похожие материалы

NVIDIA Technical Blog · Инференс и железо Оптимизация обучения LLM в JAX через выгрузку данных в хост-память NVIDIA представила метод оптимизации обучения больших языковых моделей в среде JAX, позволяющий преодолеть ограничения пропускной способности памяти GPU. Техника хост-оффлоадинга переносит часть весов, градиентов и состояний оптимизатора в оперативную память CPU, что позволяет эффективно масштабировать обучение моделей на устройствах с ограниченным объемом HBM, не допуская простоя вычислительных ядер из-за нехватки видеопамяти. Hacker News · Обучение и дообучение Разработка цикла обучения LLM на базе JAX Автор детально описывает процесс создания низкоуровневого цикла обучения для большой языковой модели с использованием фреймворка JAX. В материале разбираются ключевые аспекты настройки вычислительного графа, управления состоянием модели и оптимизации параллельных вычислений, что позволяет эффективно масштабировать процесс обучения на кластерах GPU или TPU, обеспечивая высокую производительность при работе с архитектурой трансформеров. Hacker News · Инференс и железо Оптимизация разрешенного внимания MiniMax M3 для архитектуры Nvidia Blackwell Инженеры Fireworks AI представили методы оптимизации для модели MiniMax M3, сфокусировавшись на ускорении работы разреженного внимания (sparse attention) на новейших графических процессорах Nvidia Blackwell. Благодаря кастомным ядрам CUDA удалось значительно повысить пропускную способность инференса, минимизировав накладные расходы при обработке длинных контекстов, что критически важно для эффективного развертывания современных LLM в продакшене. NVIDIA Technical Blog · Инференс и железо Ускорение инференса в 15 раз на архитектуре NVIDIA Blackwell через DFlash NVIDIA представила технологию DFlash, предназначенную для оптимизации работы больших языковых моделей на аппаратной платформе Blackwell. Метод основан на технике спекулятивного декодирования, которая позволяет значительно сократить задержки при генерации текста. В отличие от стандартных подходов, DFlash использует специализированные механизмы предсказания токенов, что позволяет достичь ускорения инференса до 15 раз в зависимости от конфигурации системы и типа модели. NVIDIA Technical Blog · Инференс и железо NVIDIA Blackwell установила рекорд в инференсе LLM для финансов NVIDIA Blackwell установила новый рекорд в инференсе больших языковых моделей (LLM) для финансовых приложений, согласно результатам тестов STAC-AI. Новые графические процессоры Blackwell показали значительное улучшение производительности по сравнению с предыдущими поколениями, что делает их идеальными для обработки сложных финансовых данных. NVIDIA Technical Blog · Машинное обучение Оптимизация обучения LLM через неравномерный тензорный параллелизм NVIDIA представила метод неравномерного тензорного параллелизма (Nonuniform Tensor Parallelism), направленный на повышение эффективности обучения крупномасштабных языковых моделей. Технология позволяет оптимизировать использование вычислительных ресурсов при работе на тысячах GPU, минимизируя время простоя и повышая показатель goodput — долю полезного времени вычислений в общем процессе обучения, что критически важно для сокращения затрат и ускорения разработки моделей. Hacker News · Обучение и дообучение Оптимизация локального обучения и инференса LLM с Unsloth Библиотека Unsloth позволяет значительно ускорить процесс дообучения и запуска популярных языковых моделей на локальном оборудовании. Инструмент оптимизирует использование видеопамяти и повышает скорость вычислений при работе с архитектурами Llama, Mistral и Phi. За счет переработки алгоритмов градиентного спуска и использования специализированных ядер CUDA, разработчики добиваются снижения потребления ресурсов до 70% при сохранении точности весов. MarkTechPost · Инференс и железо DFlash ускоряет генерацию LLM до 15 раз за счет параллельного предсказания блоков токенов Исследователи из Калифорнийского университета в Сан-Диего представили метод DFlash, который радикально ускоряет инференс LLM. Вместо последовательного предсказания токенов модель использует легковесную диффузионную архитектуру для генерации целых блоков токенов параллельно. Технология обеспечивает до 6-кратного ускорения на стандартных GPU и до 15-кратного прироста пропускной способности на архитектуре NVIDIA Blackwell при сохранении точности ответов. Hacker News · Инференс и железо Оптимизация инференса LLM через использование GPU-шейдеров Исследование демонстрирует возможности ускорения работы больших языковых моделей за счет переноса вычислительных задач на GPU-шейдеры. Автор анализирует, как низкоуровневое программирование графических процессоров позволяет оптимизировать выполнение операций, критически важных для инференса LLM. Подход открывает новые пути для повышения производительности локальных моделей на потребительском железе через более эффективное управление параллельными вычислениями и памятью видеокарт. Hacker News · Инференс и железо Экономия 67% на инференсе с Ray и vLLM на AMD MI325X Команда Anyscale опубликовала исследование, в котором продемонстрировала значительную экономию на инференсе моделей большого языка. Используя Ray и vLLM на процессорах AMD MI325X, удалось достичь сокращения затрат на 67% за счёт разнесения (disaggregation) префикса и декодирования.

← Все материалы