Исследователи представили новый математический подход к решению проблемы расхождения данных между тренировочными симуляторами и реальной средой в многоагентном обучении с подкреплением (MARL). В реальных условиях разрыв между моделью и действительностью часто приводит к резкому падению производительности агентов, так как стратегическое взаимодействие между ними усиливает любые ошибки прогнозирования. Авторы работы предлагают использовать принципы дистрибутивной робастности для оптимизации стратегий.

Суть метода заключается в обучении агентов с учетом «худшего сценария» переходов между состояниями среды. Вместо настройки системы под идеальные условия симуляции, алгоритм ищет решения, которые остаются эффективными даже при наличии значительных отклонений в динамике окружения. Это позволяет минимизировать риски, возникающие при переносе обученных моделей из контролируемой среды в непредсказуемые реальные условия.

Данное исследование вносит вклад в теорию игр среднего поля (Mean-Field Games), предоставляя инструмент для стабилизации поведения множества агентов. Предложенный подход помогает избежать деградации производительности, характерной для сложных систем, где действия одного участника зависят от предсказаний поведения других. Результаты работы могут быть применены в задачах управления автономными транспортными потоками, распределенными энергетическими сетями и другими сложными динамическими системами, где критически важна надежность при столкновении с неопределенностью.