NVIDIA Technical Blog · 15.06.2026 ·Модели и релизы

Как NVIDIA ускорила обучение MoE-моделей на 30%

Как NVIDIA ускорила обучение MoE-моделей на 30%

NVIDIA представила новые методы оптимизации обучения Mixture-of-Experts (MoE) моделей, которые стали ключевым компонентом современных ИИ-систем. Исследователи компании разработали продвинутые ядра слияния (fusion kernels), которые позволяют значительно ускорить процесс обучения.

Согласно публикации, новые ядра обеспечивают до 30% прироста пропускной способности при обучении MoE-моделей. Это особенно важно для разработчиков ИИ-агентов, так как MoE-модели позволяют эффективно обрабатывать большие объемы данных, распределяя задачи между специализированными экспертами.

Компания NVIDIA также отмечает, что их решения совместимы с популярными фреймворками для работы с ИИ, такими как TensorFlow и PyTorch. Это делает новые методы доступными для широкого круга разработчиков, включая тех, кто работает над созданием ИИ-агентов.

Важно отметить, что MoE-модели становятся все более популярными благодаря своей способности обрабатывать сложные задачи с высокой точностью и эффективностью. Оптимизация их обучения может значительно ускорить разработку и внедрение новых ИИ-решений, включая агентов, способных выполнять сложные задачи.

Источник: NVIDIA Technical Blog

Обсудить с ИИ

Похожие материалы

NVIDIA Technical Blog · Инференс и железо Рекорд обучения MoE-моделей на архитектуре NVIDIA GB200 NVL72 NVIDIA продемонстрировала возможности своей новой вычислительной платформы GB200 NVL72, установив рекорд эффективности при обучении Mixture-of-Experts (MoE) моделей. Использование специализированного оборудования позволило значительно ускорить процесс обработки токенов и оптимизировать распределение вычислительных ресурсов, что становится критически важным фактором для масштабирования современных frontier-моделей и преодоления ограничений традиционных архитектур обучения. Hacker News · Машинное обучение PuzzleMoE: новый метод сжатия моделей Mixture-of-Experts Исследователи представили PuzzleMoE — метод эффективного сжатия моделей с архитектурой Mixture-of-Experts (MoE). Технология позволяет значительно сократить количество параметров и вычислительные затраты при сохранении высокой точности нейросети. Подход оптимизирует структуру экспертов, делая крупные языковые модели более доступными для развертывания на ограниченных аппаратных ресурсах без существенной потери качества генерации. arXiv · Инфраструктура для агентов FoMoE: новый подход к обучению MoE-моделей через федерацию экспертов Исследователи представили архитектуру FoMoE (Federation of Mixture-of-Experts), которая решает проблему жесткой привязки параметров модели к вычислительной инфраструктуре. Традиционные методы обучения крупных языковых моделей требуют использования массивов тесно связанных ускорителей, что ограничивает масштабируемость. Новый подход позволяет распределять экспертов в составе MoE-архитектуры между независимыми вычислительными узлами, снимая барьер «полной репликации» весов модели на каждом устройстве. Hacker News · Модели и релизы AMD представила Instella-MoE: открытую модель с архитектурой Mixture-of-Experts Компания AMD выпустила Instella-MoE — новую открытую языковую модель, построенную на архитектуре Mixture-of-Experts (MoE). Релиз направлен на оптимизацию производительности при выполнении сложных вычислительных задач на аппаратном обеспечении AMD, включая использование стека ROCm. Модель демонстрирует эффективность в задачах инференса, сочетая высокую скорость обработки данных с качеством генерации, сопоставимым с современными аналогами аналогичного размера. NVIDIA Technical Blog · Инференс и железо Запуск мультимодальных моделей на GPU NVIDIA NVIDIA представила обновление для своей платформы Step 3.7 Flash, которое позволяет запускать мультимодальные ИИ-модели на графических процессорах с повышенной производительностью. Это решение ориентировано на корпоративных пользователей и предоставляет инструменты для работы с изображениями, документами, видео и другими типами данных. arXiv · Модели и релизы Как оптимально обрезать экспертов в моделях MoE Исследователи предложили унифицированный подход к обрезке экспертов в моделях Mixture-of-Experts (MoE), что может существенно снизить память и вычислительные затраты при развёртывании таких моделей. В статье, опубликованной на arXiv, авторы отмечают, что хотя MoE-модели эффективно распределяют вычисления между экспертами, их развёртывание всё равно требует хранения полного пула экспертов. Это создаёт проблемы с памятью, особенно при использовании в агентных системах, где важна эффективность инференса. NVIDIA Technical Blog · Инференс и железо Квантование моделей для ускоренного инференса на NVIDIA TensorRT NVIDIA представила новый подход к квантованию моделей, позволяющий превращать FP8-чекпоинты в высокопроизводительные инференс-движки с использованием TensorRT. Этот метод оптимизирует модели для работы на графических процессорах, что особенно важно для разработчиков ИИ-агентов, где скорость и эффективность вычислений играют ключевую роль. NVIDIA Technical Blog · Инфраструктура для агентов Автоматизация исследовательских ML-процессов с помощью RL-агентов и NVIDIA NeMo NVIDIA представила подход к созданию автономных ИИ-агентов, способных выполнять сложные исследовательские задачи в машинном обучении. Система использует возможности обучения с подкреплением (RL) и инструментарий NeMo для управления полным циклом работы: от анализа репозиториев и настройки среды выполнения до самостоятельного поиска решений и исправления ошибок в коде в ходе длительных итераций. Hacker News · Инференс и железо AMD оптимизирует инференс для своих GPU Instinct AMD представила Atom Inference Engine — фреймворк для оптимизации работы моделей машинного обучения на графических процессорах Instinct. Решение сочетает аппаратные и программные компоненты, что позволяет ускорить выполнение задач инференса. Hacker News · Машинное обучение Новый математический подход снижает требования к «железу» для ИИ Исследователи предложили новый математический метод оптимизации вычислений, который позволяет значительно снизить нагрузку на аппаратное обеспечение при работе с нейросетями. Замена стандартных операций с плавающей запятой на альтернативные вычисления позволяет сократить потребление ресурсов GPU без потери точности моделей, что открывает путь к более эффективному инференсу на менее мощном оборудовании.

← Все материалы