Исследователи представили алгоритм робастного Q-обучения, предназначенный для решения задач управления средним полем (mean-field control) в дискретном времени. Метод ориентирован на работу в условиях неопределенности, описываемой метрикой Вассерштейна для закона общего шума. Это позволяет моделям сохранять стабильность и эффективность даже при наличии непредсказуемых внешних факторов, влияющих на динамику системы.
Техническая реализация алгоритма базируется на комбинации схемы квантования и проекции с дуальной переформулировкой задачи в пространстве общего шума. Такой подход позволяет эффективно обрабатывать сложные вероятностные распределения, характерные для многоагентных систем, где поведение отдельных элементов зависит от совокупного состояния всей группы.
Авторы работы доказали сходимость предложенного метода и установили границы итераций для достижения результата как в синхронном, так и в асинхронном режимах работы. Полученные теоретические оценки подтверждают применимость алгоритма для задач, требующих высокой надежности обучения в динамических средах с высокой степенью стохастичности.