arXiv · 18.06.2026 ·Машинное обучение

Новый алгоритм Q-обучения для управления в условиях неопределенности

Исследователи представили алгоритм робастного Q-обучения, предназначенный для решения задач управления средним полем (mean-field control) в дискретном времени. Метод ориентирован на работу в условиях неопределенности, описываемой метрикой Вассерштейна для закона общего шума. Это позволяет моделям сохранять стабильность и эффективность даже при наличии непредсказуемых внешних факторов, влияющих на динамику системы.

Техническая реализация алгоритма базируется на комбинации схемы квантования и проекции с дуальной переформулировкой задачи в пространстве общего шума. Такой подход позволяет эффективно обрабатывать сложные вероятностные распределения, характерные для многоагентных систем, где поведение отдельных элементов зависит от совокупного состояния всей группы.

Авторы работы доказали сходимость предложенного метода и установили границы итераций для достижения результата как в синхронном, так и в асинхронном режимах работы. Полученные теоретические оценки подтверждают применимость алгоритма для задач, требующих высокой надежности обучения в динамических средах с высокой степенью стохастичности.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Новый алгоритм VRA-FedSGD для федеративного обучения в условиях шума Исследователи представили алгоритм VRA-FedSGD, предназначенный для оптимизации федеративного обучения (Federated Learning) в распределенных системах. Метод направлен на решение проблем, возникающих при работе с данными на локальных устройствах, где градиентные шумы с «тяжелыми хвостами» и нестабильность каналов связи существенно снижают точность и скорость сходимости глобальных моделей. arXiv · Машинное обучение Ускорение обучения с подкреплением через метод Heavy-Ball Q-Learning Исследователи представили модифицированный алгоритм Heavy-Ball Q-learning, направленный на повышение эффективности обучения с подкреплением. Метод использует коррекцию остаточных весов для стабилизации процесса и достижения более высокой скорости сходимости по сравнению со стандартным Q-learning. Авторы математически доказали теоретические преимущества нового подхода как для табличных методов, так и для сценариев с линейной аппроксимацией функций. arXiv · Машинное обучение Новый метод обучения нейросетей с дифференциальной приватностью DP-IVON-Gradsq Исследователи представили алгоритм DP-IVON-Gradsq, объединяющий методы байесовского глубокого обучения с принципами дифференциальной приватности. Новый подход позволяет эффективно обучать нейронные сети на чувствительных данных, сохраняя при этом возможность оценки неопределенности прогнозов. Метод решает проблему конфликта между шумом, вносимым для обеспечения приватности, и стохастичностью, характерной для байесовского вывода. arXiv · Машинное обучение Алгоритм Pareto Q-Learning для многокритериального обучения с подкреплением Исследователи представили новый алгоритм Pareto Q-Learning with Reward Machines (PQLRM), предназначенный для решения задач обучения с подкреплением в условиях сложной структуры вознаграждений. Метод объединяет принципы Pareto Q-Learning, позволяющие аппроксимировать фронт Парето для векторных оценок Q-функций, с возможностями Reward Machines, которые позволяют декомпозировать задачи на основе формальных спецификаций. arXiv · Исследования и наука Новый подход к оценке сложности обучения в задачах с гетероскедастичным шумом Исследователи представили новый метод анализа сложности выборки для линейных бандитов с гетероскедастичным шумом. Авторы преодолели «барьер полной дисперсии», предложив уточненные границы для простого сожаления (simple regret). Работа позволяет более точно оценивать производительность алгоритмов обучения в условиях, когда уровень шума меняется в зависимости от времени или действий, что критично для оптимизации стратегий принятия решений. arXiv · Машинное обучение Новый метод повышения устойчивости многоагентных систем в условиях неточных моделей Исследователи представили новый математический подход к решению проблемы расхождения данных между тренировочными симуляторами и реальной средой в многоагентном обучении с подкреплением (MARL). В реальных условиях разрыв между моделью и действительностью часто приводит к резкому падению производительности агентов, так как стратегическое взаимодействие между ними усиливает любые ошибки прогнозирования. Авторы работы предлагают использовать принципы дистрибутивной робастности для оптимизации стратегий. arXiv · Машинное обучение Новый метод для оценки политик в reinforcement learning Исследователи предложили новый подход к временной разнице (TD) с линейным приближением функций — ключевому методу в reinforcement learning. Классическое описание этого метода основано на обыкновенных дифференциальных уравнениях (ODE), которые отражают средние асимптотические динамики, но не учитывают стохастические флуктуации, влияющие на погрешность. arXiv · Исследования и наука PAC-байесовские гарантии для управления замкнутыми системами Исследователи представили новый метод получения теоретических гарантий для систем управления с обучением, использующих квадратичные функции потерь. Традиционные PAC-байесовские подходы сталкивались с трудностями из-за неограниченного характера таких функций, однако использование параметризации System Level Synthesis (SLS) позволило эффективно оценить поведение системы и обеспечить надежность предсказаний на ограниченных выборках данных. arXiv · Машинное обучение Повышение устойчивости нейросетевых алгоритмов реконструкции данных Исследователи представили новый фреймворк для решения обратных задач в машинном обучении, использующий методы дистрибутивно-робастной оптимизации (DRO). Подход позволяет нейросетям сохранять точность реконструкции даже при значительных отклонениях характеристик шума в тестовых данных от тех, что использовались при обучении, решая проблему слабой обобщающей способности стандартных моделей в условиях изменчивой среды. arXiv · Исследования и наука Математический подход к безопасности обучения моделей через Langevin Dynamics Исследователи представили новый теоретический метод оценки рисков при обучении нейронных сетей, использующих стохастический градиентный спуск. Авторы рассматривают процесс обучения как передемпфированную динамику Ланжевена и выводят математические границы вероятности попадания параметров модели в «опасные зоны» (failure regions), что позволяет контролировать стабильность и безопасность весов в процессе оптимизации функции потерь.

← Все материалы