Исследователи предложили новый подход к временной разнице (TD) с линейным приближением функций — ключевому методу в reinforcement learning. Классическое описание этого метода основано на обыкновенных дифференциальных уравнениях (ODE), которые отражают средние асимптотические динамики, но не учитывают стохастические флуктуации, влияющие на погрешность.

Авторы работы представили стохастическое дифференциальное уравнение (SDE), которое приближает линейный TD(0) с учётом марковского шума. Это позволяет более точно оценивать политики, учитывая случайные колебания, которые ранее игнорировались.

Разработанный метод может улучшить точность оценки политик в задачах reinforcement learning, где важно учитывать не только средние, но и случайные компоненты. Исследование опубликовано на arXiv и может найти применение в разработке более точных алгоритмов обучения с подкреплением.

Работа также подчёркивает важность учёта стохастических факторов в моделях машинного обучения, что может привести к более надёжным и точным системам.