Исследователи проанализировали математические свойства метода временных различий (Temporal Difference, TD) в обучении с подкреплением. В работе рассматривается поведение алгоритма в табличной постановке задачи и выявляется ключевой механизм, позволяющий методу эффективно снижать дисперсию при оценке функций ценности. Авторы показывают, что TD-обучение достигает этого за счет агрегации данных по большему числу независимых траекторий, что делает его более устойчивым по сравнению с классическими методами Монте-Карло.

На основе полученных выводов предложен новый подход к оптимизации обучения с использованием контрольных переменных (control variates). Этот метод позволяет дополнительно ограничить дисперсию оценок, что критически важно для повышения стабильности и скорости сходимости агентов в сложных средах. Теоретический анализ подтверждает, что предложенная модификация позволяет алгоритмам TD демонстрировать более предсказуемое поведение при работе с ограниченными наборами данных.

Результаты работы уточняют фундаментальное понимание того, как именно происходит обучение в задачах с последовательным принятием решений. Предложенный подход к снижению шума в градиентах может быть применен для улучшения алгоритмов обучения агентов, работающих в условиях высокой неопределенности или при ограниченном доступе к симуляциям среды.