MarkTechPost · 23.06.2026 ·Обучение и дообучение

Релиз prime-rl 0.6.0 для обучения масштабных MoE-моделей

Компания Prime Intellect представила обновленный фреймворк prime-rl версии 0.6.0, предназначенный для асинхронного обучения с подкреплением (RL) на базе архитектур Mixture-of-Experts (MoE) с триллионными параметрами. Инструмент ориентирован на решение сложных агентных задач, требующих работы с длинными контекстами и высокой вычислительной эффективностью. В ходе тестирования система продемонстрировала возможность обучения модели GLM-5 с длиной последовательности до 131 тысячи токенов.

Техническая реализация включает оптимизации для работы на кластерах из 28 узлов H200, обеспечивая время шага менее пяти минут при выполнении 256 параллельных прогонов (rollouts). Ключевыми факторами производительности стали внедрение инференса в формате FP8 и использование архитектуры Wide Expert, которая позволяет эффективно распределять нагрузку при обучении моделей сверхбольшого масштаба. Эти методы значительно снижают требования к памяти и ускоряют процесс сходимости при работе с агентными рабочими нагрузками.

Фреймворк направлен на преодоление ограничений, связанных с масштабированием обучения моделей, способных к выполнению многоэтапных программных задач (SWE tasks). Использование асинхронного подхода в сочетании с оптимизированными алгоритмами обучения с подкреплением позволяет разработчикам эффективнее использовать аппаратные ресурсы при создании интеллектуальных агентов, требующих глубокого понимания контекста и способности к долгосрочному планированию.

Источник: MarkTechPost

Похожие материалы

arXiv · Инфраструктура для агентов FoMoE: новый подход к обучению MoE-моделей через федерацию экспертов Исследователи представили архитектуру FoMoE (Federation of Mixture-of-Experts), которая решает проблему жесткой привязки параметров модели к вычислительной инфраструктуре. Традиционные методы обучения крупных языковых моделей требуют использования массивов тесно связанных ускорителей, что ограничивает масштабируемость. Новый подход позволяет распределять экспертов в составе MoE-архитектуры между независимыми вычислительными узлами, снимая барьер «полной репликации» весов модели на каждом устройстве. arXiv · Оценка и бенчмарки Новый фреймворк PRIME для оценки поведения LLM при противоречивых инструкциях Исследователи представили фреймворк PRIME (Prompt Resolution under Incompatible Meta-Instructions Evaluation), предназначенный для анализа того, как большие языковые модели справляются с конфликтующими командами. Существующие бенчмарки часто тестируют следование инструкциям в изолированных условиях, что не позволяет оценить поведение моделей в реальных сценариях, где пользовательские запросы могут содержать логические противоречия или взаимоисключающие требования. GitHub · Обучение и дообучение Tencent представил фреймворк UniRL для обучения мультимодальных моделей Компания Tencent выпустила фреймворк UniRL, предназначенный для обучения мультимодальных моделей с использованием подкрепляющего обучения (Reinforcement Learning). Этот инструмент позволяет интегрировать различные типы данных, включая текст, изображения и видео, в единый процесс обучения. Это особенно важно для разработки ИИ-агентов, которые должны эффективно обрабатывать и анализировать разнообразные данные. arXiv · Обучение и дообучение Новый метод обучения LLM через промежуточное RL Исследователи предложили новый подход к обучению языковых моделей (LLM) с использованием reinforcement learning (RL) на промежуточном этапе обучения. В статье, опубликованной на arXiv, авторы показывают, что традиционные методы RL с редкими наградами (sparse reward RL) сильно зависят от начальной подготовки модели. NVIDIA Technical Blog · Модели и релизы Как NVIDIA ускорила обучение MoE-моделей на 30% NVIDIA представила новые методы оптимизации обучения Mixture-of-Experts (MoE) моделей, которые стали ключевым компонентом современных ИИ-систем. Исследователи компании разработали продвинутые ядра слияния (fusion kernels), которые позволяют значительно ускорить процесс обучения. arXiv · Модели и релизы Новый метод SoftMoE для эффективного масштабирования LLM Исследователи предложили новый подход SoftMoE для улучшения работы архитектур Mixture-of-Experts (MoE) в языковых моделях. Традиционные MoE используют top-k маршрутизацию, которая активирует только часть экспертов, но из-за недифференцируемости этого оператора число активных экспертов фиксировано, что приводит к неэффективному использованию вычислительных ресурсов. Hacker News · Обучение и дообучение GoLongRL: новый подход к обучению агентов с длинным контекстом Исследователи из XiaoxuanNLP представили GoLongRL — фреймворк для обучения агентов с длинным контекстом, основанный на подходе reinforcement learning (RL). В отличие от традиционных методов, GoLongRL фокусируется на способностях (capabilities) агентов, а не на конкретных задачах, что позволяет лучше адаптироваться к новым сценариям. arXiv · Машинное обучение Новый подход к метаобучению в reinforcement learning Исследователи предложили новый фреймворк для метаобучения в reinforcement learning (RL), который улучшает адаптацию агентов к новым задачам. В традиционных методах метаобучения RL задача распознавания и управление телом агента часто связаны, что усложняет извлечение общих знаний и снижает эффективность обучения. arXiv · Машинное обучение Модельно-ориентированный подход к созданию сред для обучения с подкреплением Исследователи представили новый подход к разработке виртуальных сред, предназначенных для обучения агентов с подкреплением (RL). Традиционно создание таких систем требует значительных затрат времени, так как для успешной сходимости алгоритмов агентам необходимо тренироваться в множестве схожих, но вариативных условий. Авторы работы предлагают использовать модельно-ориентированную методологию, которая позволяет автоматизировать генерацию семейств сред, сохраняя при этом их функциональную близость. Hugging Face - Blog · Обучение и дообучение OpenEnv: открытая платформа для обучения агентов через RL Команда Hugging Face анонсировала OpenEnv — открытую платформу для обучения ИИ-агентов с использованием подхода Reinforcement Learning (RL). Платформа предоставляет набор инструментов и инфраструктуру для создания, тестирования и развертывания агентов, способных взаимодействовать с окружающей средой и учиться на основе обратной связи.

← Все материалы