arXiv · 16.06.2026 ·Машинное обучение

Новый метод для оценки политик в reinforcement learning

Исследователи предложили новый подход к временной разнице (TD) с линейным приближением функций — ключевому методу в reinforcement learning. Классическое описание этого метода основано на обыкновенных дифференциальных уравнениях (ODE), которые отражают средние асимптотические динамики, но не учитывают стохастические флуктуации, влияющие на погрешность.

Авторы работы представили стохастическое дифференциальное уравнение (SDE), которое приближает линейный TD(0) с учётом марковского шума. Это позволяет более точно оценивать политики, учитывая случайные колебания, которые ранее игнорировались.

Разработанный метод может улучшить точность оценки политик в задачах reinforcement learning, где важно учитывать не только средние, но и случайные компоненты. Исследование опубликовано на arXiv и может найти применение в разработке более точных алгоритмов обучения с подкреплением.

Работа также подчёркивает важность учёта стохастических факторов в моделях машинного обучения, что может привести к более надёжным и точным системам.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Исследование снижения дисперсии в обучении с подкреплением Исследователи проанализировали математические свойства метода временных различий (Temporal Difference, TD) в обучении с подкреплением. В работе рассматривается поведение алгоритма в табличной постановке задачи и выявляется ключевой механизм, позволяющий методу эффективно снижать дисперсию при оценке функций ценности. Авторы показывают, что TD-обучение достигает этого за счет агрегации данных по большему числу независимых траекторий, что делает его более устойчивым по сравнению с классическими методами Монте-Карло. arXiv · Машинное обучение On-Policy Delta Distillation: новый метод обучения моделей с подкреплением Исследователи представили метод On-Policy Delta Distillation, направленный на оптимизацию процесса пост-тренировки языковых моделей. Новый подход позволяет использовать токенизированный надзор от «учителя» для обучения «ученика», обходя ограничения традиционных моделей вознаграждения. Техника повышает эффективность обучения с подкреплением, обеспечивая более точную передачу знаний между моделями при сохранении стабильности процесса. arXiv · Машинное обучение Новый метод Predictive Divergence Masks для стабилизации обучения LLM с подкреплением Исследователи представили метод Predictive Divergence Masks, оптимизирующий процесс обучения LLM с подкреплением (RL). Новый подход заменяет стандартные маски доверительной области, используемые в PPO, более точными критериями близости и направления. Это позволяет эффективнее контролировать обновления политики, предотвращая деградацию модели при работе с off-policy данными и повышая общую стабильность обучения. arXiv · Исследования и наука Новый метод идентификации латентных стохастических дифференциальных уравнений Исследователи представили новый подход к решению проблемы идентифицируемости в непрерывных латентных моделях на основе стохастических дифференциальных уравнений (SDE). Используя сдвиги ковариации диффузии, вызванные изменениями внешней среды, авторы смогли восстановить причинно-следственные связи в данных временных рядов, что ранее было затруднительно для моделей с неизвестными нелинейными функциями наблюдения. arXiv · Машинное обучение Новый подход к обучению стратегий с распределенными результатами Исследователи представили метод Wasserstein Policy Learning, предназначенный для обучения стратегий в условиях, когда результатом воздействия является не скалярное значение, а целое распределение вероятностей. Традиционные подходы к причинно-следственному выводу обычно фокусируются на максимизации среднего ожидаемого эффекта, что ограничивает возможности анализа в сложных системах, где важно учитывать вариативность и риски, а не только средний показатель. arXiv · Машинное обучение Новый метод для устойчивых диффузионных политик Исследователи предложили новый подход для повышения устойчивости диффузионных политик, которые используются в управлении физическими системами. Проблема заключается в том, что конечномерные (FD) диффузионные политики страдают от временного дрейфа из-за артефактов дискретизации, что ухудшает их производительность на длительных временных горизонтах. arXiv · Машинное обучение Исследование влияния позиционного смещения в методах дистилляции моделей Исследователи проанализировали эффективность метода On-Policy Distillation (OPD), который используется для ускорения обучения моделей с подкреплением через пошаговый контроль со стороны «учителя». Стандартный подход предполагает равномерное распределение весов для всех токенов при расчете функции потерь, однако новая работа доказывает, что такой метод не учитывает накопленные ошибки в длинных последовательностях. arXiv · Машинное обучение Новый метод обучения dLLMs через самодистилляцию Исследователи предложили новый подход к обучению диффузионных языковых моделей (dLLMs) — on-policy self-distillation (OPSD). Этот метод уже показал свою эффективность для обычных языковых моделей, но его применение к dLLMs оставалось неизученным. arXiv · Исследования и наука Обучение эргодических динамических систем на основе конечных траекторий Исследователи представили новый подход к обучению стохастических динамических систем, используя данные одной конечной траектории. Работа фокусируется на дискретных автономных системах, описываемых как однородные по времени марковские процессы. Авторы предложили метод оценки функции прогнозирования на один шаг вперед с помощью нелинейных наименьших квадратов и вывели строгие вероятностные гарантии точности модели относительно инвариантной меры системы. Hacker News · Машинное обучение Новый подход к решению нейронных ОДУ Исследователи предложили метод решения нейронных обыкновенных дифференциальных уравнений (ОДУ) с нуля. В статье на Tinyvolt подробно описаны принципы и алгоритмы, которые позволяют более точно моделировать динамические системы.

← Все материалы