arXiv · 16.06.2026 ·Машинное обучение

Новый метод для устойчивых диффузионных политик

Исследователи предложили новый подход для повышения устойчивости диффузионных политик, которые используются в управлении физическими системами. Проблема заключается в том, что конечномерные (FD) диффузионные политики страдают от временного дрейфа из-за артефактов дискретизации, что ухудшает их производительность на длительных временных горизонтах.

Авторы работы ввели обратное уравнение Колмогорова, которое позволяет «поднять» диффузионные политики в пространство Камерона-Мартина — подмножество гильбертова пространства. Это решение заменяет стохастическое согласование оценок на детерминированное краевое задача для дифференциального уравнения в частных производных (PDE).

Подход позволяет снизить влияние случайных факторов и повысить стабильность политик при их применении в реальных физических системах. Исследование может найти применение в робототехнике, автоматизированном управлении и других областях, где требуется надёжное управление динамическими процессами.

Работа опубликована на arXiv и доступна по ссылке: https://arxiv.org/abs/2606.18186v1.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Новый метод для оценки политик в reinforcement learning Исследователи предложили новый подход к временной разнице (TD) с линейным приближением функций — ключевому методу в reinforcement learning. Классическое описание этого метода основано на обыкновенных дифференциальных уравнениях (ODE), которые отражают средние асимптотические динамики, но не учитывают стохастические флуктуации, влияющие на погрешность. arXiv · Машинное обучение Новый подход к дистилляции диффузионных моделей с использованием CFG Исследователи предложили новый метод оптимизации процесса дистилляции диффузионных моделей, работающих по принципу on-policy. Авторы пересмотрели роль классификаторно-свободного руководства (CFG) при обучении студенческих моделей, показав, что прямое копирование стратегии учителя приводит к неэффективности. Предложенный подход позволяет значительно ускорить генерацию изображений, сохраняя при этом высокое качество и точность следования текстовым промптам. arXiv · Машинное обучение Оптимальное управление в реальном времени через рекуррентные декодеры Исследователи представили новый метод управления динамическими системами с использованием неглубоких рекуррентных декодеров. Подход позволяет оперативно адаптировать стратегии контроля в меняющихся условиях, исключая необходимость проведения множественных вычислительно затратных симуляций. Метод демонстрирует высокую эффективность в задачах, требующих мгновенной реакции системы при сохранении стабильности и точности управления в условиях высокой размерности данных. arXiv · Машинное обучение Fed-CausalDiff: новый подход к федеративному обучению и причинно-следственному выводу Исследователи представили фреймворк Fed-CausalDiff, объединяющий методы федеративного обучения с принципами причинно-следственного вывода (causal inference). Традиционные подходы к распределенному обучению моделей фокусируются на анализе исторических данных, что ограничивает их способность предсказывать последствия действий в динамических средах. Новый метод решает эту проблему, позволяя моделям оценивать влияние различных стратегий без необходимости централизации конфиденциальной информации. arXiv · Исследования и наука Новый подход к формальному доказательству теорем с помощью диффузионных моделей Исследователи представили метод Diffusion-Proof, направленный на преодоление ограничений стандартных авторегрессионных языковых моделей в задачах формальной математики. Традиционные модели, предсказывающие следующий токен, часто сталкиваются с трудностями при построении длинных логических цепочек, необходимых для верификации сложных математических доказательств. Новый подход переносит принципы диффузионных процессов в область формального вывода, позволяя моделям более эффективно исследовать пространство возможных доказательств. arXiv · Исследования и наука PCGD: физически обоснованная диффузионная модель для симуляции полупроводников Исследователи представили метод Physics-Guided Conditional Graph Diffusion (PCGD) для ускорения моделирования полупроводниковых устройств в системах TCAD. Новый подход использует диффузионные модели на графах, дополненные физическими ограничениями, что позволяет обходить вычислительные сложности традиционных численных методов при решении уравнений дрейфа-диффузии, сохраняя при этом высокую точность моделирования сложных физических полей. arXiv · Исследования и наука Новый метод оптимизации графиков диффузионных моделей на основе смеси гауссиан Исследователи представили аналитический подход к проектированию графиков (schedules) для диффузионных моделей типа Brownian Bridge (BBDM). Вместо использования эвристических методов авторы предложили математическую модель на основе смеси гауссиан, которая позволяет точнее управлять процессом восстановления данных. Это повышает эффективность решения обратных задач, таких как восстановление изображений, за счет более точного моделирования стохастического перехода между состояниями. arXiv · Машинное обучение Новый подход к обучению стратегий с распределенными результатами Исследователи представили метод Wasserstein Policy Learning, предназначенный для обучения стратегий в условиях, когда результатом воздействия является не скалярное значение, а целое распределение вероятностей. Традиционные подходы к причинно-следственному выводу обычно фокусируются на максимизации среднего ожидаемого эффекта, что ограничивает возможности анализа в сложных системах, где важно учитывать вариативность и риски, а не только средний показатель. arXiv · Исследования и наука Новый метод физически-информированных эмбеддингов для решения уравнений в частных производных Исследователи представили архитектуру для построения конечномерных эмбеддингов семейств решений уравнений в частных производных (PDE). Метод использует многоголовую нейронную сеть, где общая часть модели обучается выделять латентное многообразие пространства решений, а линейные головы восстанавливают конкретные сценарии для различных начальных условий. Это позволяет эффективно аппроксимировать сложные физические системы с высокой точностью и вычислительной эффективностью. arXiv · Машинное обучение On-Policy Delta Distillation: новый метод обучения моделей с подкреплением Исследователи представили метод On-Policy Delta Distillation, направленный на оптимизацию процесса пост-тренировки языковых моделей. Новый подход позволяет использовать токенизированный надзор от «учителя» для обучения «ученика», обходя ограничения традиционных моделей вознаграждения. Техника повышает эффективность обучения с подкреплением, обеспечивая более точную передачу знаний между моделями при сохранении стабильности процесса.

← Все материалы