Исследователи проанализировали влияние использования устаревших данных (staleness) на эффективность обучения с подкреплением на основе отзывов людей (RLHF). В высокопроизводительных системах генерация траекторий часто отделена от оптимизации политики, что приводит к задержкам. Авторы предложили математическую модель для корректировки скорости обучения в асинхронном алгоритме GRPO, позволяющую минимизировать негативный эффект от использования неактуальных данных при обновлении весов модели.
В современных пайплайнах обучения LLM разделение процессов сбора данных и обновления градиентов является стандартом для достижения высокой пропускной способности. Однако это создает проблему «устаревания» (staleness), когда модель обучается на траекториях, сгенерированных предыдущими версиями политики. Работа формализует связь между поведением политики и суррогатной целевой функцией, что позволяет точнее оценивать градиенты.
Авторы вводят понятие законов масштабирования для скорости обучения с учетом задержки. Это позволяет автоматически адаптировать параметры оптимизатора в зависимости от времени жизни данных в буфере. Такой подход повышает стабильность обучения в крупномасштабных распределенных средах, где задержки между узлами генерации и обучения неизбежны.
Ключевые факты
- Исследование сфокусировано на оптимизации асинхронного алгоритма GRPO (Group Relative Policy Optimization).
- Предложен метод явного учета поведения политики в суррогатной целевой функции для компенсации задержек.
- Выведены законы масштабирования скорости обучения (learning rate), связывающие степень устаревания данных с эффективностью сходимости.
- Метод позволяет повысить стабильность обучения в системах, где генерация данных и обновление модели происходят независимо.