arXiv · 01.07.2026 ·Машинное обучение

Масштабирование обучения RLHF в асинхронных системах

Исследователи проанализировали влияние использования устаревших данных (staleness) на эффективность обучения с подкреплением на основе отзывов людей (RLHF). В высокопроизводительных системах генерация траекторий часто отделена от оптимизации политики, что приводит к задержкам. Авторы предложили математическую модель для корректировки скорости обучения в асинхронном алгоритме GRPO, позволяющую минимизировать негативный эффект от использования неактуальных данных при обновлении весов модели.

В современных пайплайнах обучения LLM разделение процессов сбора данных и обновления градиентов является стандартом для достижения высокой пропускной способности. Однако это создает проблему «устаревания» (staleness), когда модель обучается на траекториях, сгенерированных предыдущими версиями политики. Работа формализует связь между поведением политики и суррогатной целевой функцией, что позволяет точнее оценивать градиенты.

Авторы вводят понятие законов масштабирования для скорости обучения с учетом задержки. Это позволяет автоматически адаптировать параметры оптимизатора в зависимости от времени жизни данных в буфере. Такой подход повышает стабильность обучения в крупномасштабных распределенных средах, где задержки между узлами генерации и обучения неизбежны.

Ключевые факты

Исследование сфокусировано на оптимизации асинхронного алгоритма GRPO (Group Relative Policy Optimization).
Предложен метод явного учета поведения политики в суррогатной целевой функции для компенсации задержек.
Выведены законы масштабирования скорости обучения (learning rate), связывающие степень устаревания данных с эффективностью сходимости.
Метод позволяет повысить стабильность обучения в системах, где генерация данных и обновление модели происходят независимо.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы