Исследователи представили метод Wasserstein Policy Learning, предназначенный для обучения стратегий в условиях, когда результатом воздействия является не скалярное значение, а целое распределение вероятностей. Традиционные подходы к причинно-следственному выводу обычно фокусируются на максимизации среднего ожидаемого эффекта, что ограничивает возможности анализа в сложных системах, где важно учитывать вариативность и риски, а не только средний показатель.

В основе предложенного метода лежит использование метрики Вассерштейна для оценки различий между распределениями потенциальных исходов. Это позволяет алгоритму обучаться на исторических данных, учитывая всю структуру неопределенности, присущую каждому конкретному случаю. Такой подход особенно эффективен в задачах, где распределение результатов может быть мультимодальным или обладать «тяжелыми хвостами», что часто встречается в медицине, экономике и управлении сложными процессами.

Авторы работы демонстрируют, что оптимизация стратегий через распределения позволяет точнее адаптировать решения под индивидуальные характеристики объектов. Математическая формулировка задачи сводится к минимизации расстояния между предсказанным и целевым распределением исходов, что обеспечивает более устойчивые результаты по сравнению с классическими методами оценки среднего. Данное исследование открывает новые возможности для построения систем поддержки принятия решений, требующих учета не только ожидаемой выгоды, но и оценки вероятностных рисков.