arXiv · 17.06.2026 ·Машинное обучение

Новый подход к обучению стратегий с распределенными результатами

Исследователи представили метод Wasserstein Policy Learning, предназначенный для обучения стратегий в условиях, когда результатом воздействия является не скалярное значение, а целое распределение вероятностей. Традиционные подходы к причинно-следственному выводу обычно фокусируются на максимизации среднего ожидаемого эффекта, что ограничивает возможности анализа в сложных системах, где важно учитывать вариативность и риски, а не только средний показатель.

В основе предложенного метода лежит использование метрики Вассерштейна для оценки различий между распределениями потенциальных исходов. Это позволяет алгоритму обучаться на исторических данных, учитывая всю структуру неопределенности, присущую каждому конкретному случаю. Такой подход особенно эффективен в задачах, где распределение результатов может быть мультимодальным или обладать «тяжелыми хвостами», что часто встречается в медицине, экономике и управлении сложными процессами.

Авторы работы демонстрируют, что оптимизация стратегий через распределения позволяет точнее адаптировать решения под индивидуальные характеристики объектов. Математическая формулировка задачи сводится к минимизации расстояния между предсказанным и целевым распределением исходов, что обеспечивает более устойчивые результаты по сравнению с классическими методами оценки среднего. Данное исследование открывает новые возможности для построения систем поддержки принятия решений, требующих учета не только ожидаемой выгоды, но и оценки вероятностных рисков.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука Применение RAG для обучения стратегий принятия решений в причинно-следственном анализе Исследователи предложили новый метод обучения стратегий (policy learning) с использованием RAG, адаптированный для задач причинно-следственного вывода. Подход формулирует выбор действий через фреймворк потенциальных исходов, где векторный поиск используется для подбора релевантных доказательств. Это позволяет моделям точнее оценивать ожидаемые результаты и оптимизировать принятие решений на основе эмпирических данных из векторных баз. arXiv · Машинное обучение Новый метод обучения классификаторов в условиях стратегического поведения пользователей Исследователи представили метод обучения нелинейных классификаторов, устойчивых к стратегическим манипуляциям со стороны пользователей. Ранее подобные задачи ограничивались линейными моделями из-за высокой вычислительной сложности. Новый подход позволяет эффективно оптимизировать классификаторы, когда пользователи пытаются изменить свои данные, чтобы повлиять на решение системы, сохраняя при этом точность и предсказуемость модели в динамической среде. arXiv · Машинное обучение Новый метод для оценки политик в reinforcement learning Исследователи предложили новый подход к временной разнице (TD) с линейным приближением функций — ключевому методу в reinforcement learning. Классическое описание этого метода основано на обыкновенных дифференциальных уравнениях (ODE), которые отражают средние асимптотические динамики, но не учитывают стохастические флуктуации, влияющие на погрешность. arXiv · Машинное обучение Исследование влияния позиционного смещения в методах дистилляции моделей Исследователи проанализировали эффективность метода On-Policy Distillation (OPD), который используется для ускорения обучения моделей с подкреплением через пошаговый контроль со стороны «учителя». Стандартный подход предполагает равномерное распределение весов для всех токенов при расчете функции потерь, однако новая работа доказывает, что такой метод не учитывает накопленные ошибки в длинных последовательностях. arXiv · Машинное обучение Новый метод Kernel-WIS для оценки стратегий в контекстных бандитах Исследователи представили Kernel-WIS — новый статистический оценщик для задач контекстных бандитов, позволяющий проводить оценку стратегий вне политики (off-policy evaluation) на основе исторических данных. Метод демонстрирует асимптотическую состоятельность и превосходит стандартные подходы, такие как классическое взвешенное выборочное усреднение (WIS), особенно в условиях неточной спецификации поведения системы. arXiv · Машинное обучение Новый метод Predictive Divergence Masks для стабилизации обучения LLM с подкреплением Исследователи представили метод Predictive Divergence Masks, оптимизирующий процесс обучения LLM с подкреплением (RL). Новый подход заменяет стандартные маски доверительной области, используемые в PPO, более точными критериями близости и направления. Это позволяет эффективнее контролировать обновления политики, предотвращая деградацию модели при работе с off-policy данными и повышая общую стабильность обучения. arXiv · Машинное обучение On-Policy Delta Distillation: новый метод обучения моделей с подкреплением Исследователи представили метод On-Policy Delta Distillation, направленный на оптимизацию процесса пост-тренировки языковых моделей. Новый подход позволяет использовать токенизированный надзор от «учителя» для обучения «ученика», обходя ограничения традиционных моделей вознаграждения. Техника повышает эффективность обучения с подкреплением, обеспечивая более точную передачу знаний между моделями при сохранении стабильности процесса. arXiv · Машинное обучение Новый подход к обучению распределений на основе данных из нескольких источников Исследователи представили математическую модель обучения неизвестного распределения вероятностей на основе ограниченных условных выборок от множества гетерогенных поставщиков данных. Метод позволяет эффективно восстанавливать целевое распределение, даже когда доступ к данным ограничен конкретными подмножествами домена, что критически важно для сценариев с распределенными или частично пересекающимися наборами данных от различных провайдеров. Hacker News · Исследования и наука Аудит рисков в методах дистрибутивного обучения с подкреплением Исследователи проанализировали надежность дистрибутивного обучения с подкреплением (Distributional RL), которое моделирует распределение вероятностей будущих наград вместо их среднего значения. Работа ставит под сомнение общепринятые утверждения о том, что такие методы автоматически повышают устойчивость моделей к неопределенности. Авторы выявили специфические уязвимости, при которых сложные распределительные алгоритмы могут демонстрировать непредсказуемое поведение в критических сценариях. arXiv · Машинное обучение Алгоритмическое обучение стратегиям ставок в аукционах с бюджетными ограничениями Исследователи представили новый подход к автоматизации стратегий ставок в дискриминационных аукционах с учетом бюджетных ограничений. Модель оптимизирует совокупную полезность участника на протяжении T раундов, учитывая стоимость капитала и жесткие лимиты расходов. Решение преодолевает вычислительную сложность экспоненциального пространства действий, предлагая эффективные методы для динамического управления ставками в условиях неопределенности и конкурентной среды.

← Все материалы