Компания Prime Intellect представила обновленный фреймворк prime-rl версии 0.6.0, предназначенный для асинхронного обучения с подкреплением (RL) на базе архитектур Mixture-of-Experts (MoE) с триллионными параметрами. Инструмент ориентирован на решение сложных агентных задач, требующих работы с длинными контекстами и высокой вычислительной эффективностью. В ходе тестирования система продемонстрировала возможность обучения модели GLM-5 с длиной последовательности до 131 тысячи токенов.
Техническая реализация включает оптимизации для работы на кластерах из 28 узлов H200, обеспечивая время шага менее пяти минут при выполнении 256 параллельных прогонов (rollouts). Ключевыми факторами производительности стали внедрение инференса в формате FP8 и использование архитектуры Wide Expert, которая позволяет эффективно распределять нагрузку при обучении моделей сверхбольшого масштаба. Эти методы значительно снижают требования к памяти и ускоряют процесс сходимости при работе с агентными рабочими нагрузками.
Фреймворк направлен на преодоление ограничений, связанных с масштабированием обучения моделей, способных к выполнению многоэтапных программных задач (SWE tasks). Использование асинхронного подхода в сочетании с оптимизированными алгоритмами обучения с подкреплением позволяет разработчикам эффективнее использовать аппаратные ресурсы при создании интеллектуальных агентов, требующих глубокого понимания контекста и способности к долгосрочному планированию.
