Исследователи представили метод RODS (Reward-Driven Online Data Synthesis), направленный на повышение эффективности обучения ИИ-агентов, работающих с внешними инструментами в многоходовых сценариях. Основная проблема существующих подходов заключается в быстром истощении полезных обучающих данных в статических наборах, что ограничивает развитие моделей. Новый метод решает эту задачу через динамическую генерацию данных, ориентированную на максимизацию обучающего сигнала.
В основе подхода лежит наблюдение за градиентными сигналами в алгоритмах обучения с подкреплением, таких как GRPO. Авторы установили, что модель получает наиболее ценную информацию при выполнении задач, где вероятность успеха и неудачи примерно сбалансирована — на так называемой границе возможностей агента. Именно в этих точках наблюдается наибольшая дисперсия наград, что позволяет эффективнее корректировать веса модели.
RODS в режиме реального времени синтезирует обучающие примеры, которые соответствуют текущему уровню сложности для конкретного агента. Это позволяет избежать переобучения на простых задачах и фокусирует вычислительные ресурсы на тех аспектах взаимодействия с инструментами, где модель еще допускает ошибки. Такой подход значительно ускоряет сходимость обучения и повышает надежность агентов при выполнении многоэтапных цепочек действий.