arXiv · 02.07.2026 ·Машинное обучение

Новый метод оптимизации DSGNAR для обучения физически информированных нейросетей

Исследователи представили DSGNAR — фреймворк для оптимизации физически информированных нейронных сетей (PINN). Метод решает проблему плохой обусловленности ландшафта функции потерь, которая препятствует достижению точности классических численных методов при решении дифференциальных уравнений в частных производных. Алгоритм сочетает двойное скетчирование и адаптивное соотношение, обеспечивая масштабируемость и стабильность процесса обучения сложных физических моделей.

Физически информированные нейронные сети интегрируют законы физики непосредственно в архитектуру модели через функцию потерь, что позволяет им моделировать динамические системы на основе данных. Однако на практике обучение таких сетей часто сталкивается с «жесткими» задачами оптимизации, где градиенты становятся нестабильными, а сходимость замедляется. Традиционные оптимизаторы первого порядка, такие как Adam, часто не справляются с высокой кривизной ландшафта потерь, характерной для уравнений в частных производных.

Метод DSGNAR (Doubly-Sketched Gauss-Newton with Adaptive Ratio) использует аппроксимацию Гаусса-Ньютона, которая лучше учитывает геометрию функции потерь, чем стандартные методы градиентного спуска. За счет применения техник скетчирования исследователям удалось снизить вычислительную сложность метода, сохранив при этом высокую точность аппроксимации матрицы Гессе. Это позволяет применять алгоритм к задачам с большим количеством параметров, где классические методы второго порядка были бы слишком ресурсоемкими.

Ключевые факты

DSGNAR предназначен для решения дифференциальных уравнений в частных производных с помощью нейросетей.
Метод использует двойное скетчирование (doubly-sketched) для эффективной аппроксимации матрицы Гаусса-Ньютона.
Алгоритм включает адаптивное соотношение (adaptive ratio) для динамической настройки параметров оптимизации в процессе обучения.
Разработка направлена на преодоление ограничений по точности, которые ранее сдерживали применение PINN по сравнению с классическими вычислительными решателями.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Оптимизация гиперпараметров в физически информированных нейросетях Исследователи представили новый подход к обучению физически информированных нейронных сетей (PINNs), предназначенных для решения дифференциальных уравнений в частных производных. Основная сложность таких моделей заключается в нестабильной сходимости и высокой чувствительности к выбору гиперпараметров, что вызвано невыпуклой структурой функции потерь, включающей множество физических ограничений. arXiv · Машинное обучение Новый метод оптимизации градиента для ускорения обучения нейросетей Исследователи представили метод Stochastic Gradient Optimization with Model-Assisted Sampling, направленный на снижение дисперсии при оценке стохастического градиента. Новый подход позволяет эффективнее балансировать между скоростью сходимости и качеством обобщения моделей, минимизируя шум, неизбежно возникающий при использовании стандартных мини-пакетных методов обучения в глубоком обучении. arXiv · Исследования и наука Error-Conditioned Neural Solvers: новый подход к решению дифференциальных уравнений Исследователи представили метод Error-Conditioned Neural Solvers, который повышает точность нейросетевых суррогатных моделей при решении дифференциальных уравнений в частных производных (PDE). В отличие от стандартных подходов, рассматривающих задачу как чисто статистическую, новый метод динамически корректирует нарушения физических ограничений, что позволяет моделям эффективнее работать за пределами обучающей выборки и минимизировать остаточные ошибки. arXiv · Машинное обучение Анализ динамики обучения нейросетей через спектральные свойства матрицы Гессе Исследователи представили новый метод анализа процесса обучения нейронных сетей, основанный на изучении динамики собственных векторов матрицы Гессе. Работа раскрывает, как изменение кривизны ландшафта функции потерь коррелирует с выбором оптимизатора и обобщающей способностью модели. Авторы показывают, что отслеживание смещения и локализации этих векторов позволяет глубже понять механизмы оптимизации и стабильность обучения в глубоких архитектурах. arXiv · Машинное обучение Новый взгляд на теорию плоских минимумов в глубоком обучении Исследователи поставили под сомнение устоявшееся в глубоком обучении представление о том, что стохастический градиентный спуск (SGD) естественным образом стремится к «плоским» минимумам функции потерь, которые обеспечивают лучшую обобщающую способность нейросетей. Основная проблема заключается в том, что традиционные метрики оценки плоскости, такие как след или максимальное собственное значение гессиана, зависят от конкретной параметризации модели. Это означает, что при изменении представления весов, не влияющем на итоговую функцию сети, показатели «плоскости» могут меняться, что делает их ненадежными инструментами для анализа. arXiv · Машинное обучение Новый метод стабилизации динамики обучения нейросетей через инерцию Исследователи предложили модификацию динамики Дирака-Френкеля, добавляющую инерцию для решения проблем неустойчивости при обучении нелинейно параметризованных моделей, таких как нейронные сети. Введение инерционного члена позволяет сохранять информацию о скорости изменения параметров из прошлых состояний, что делает процесс оптимизации более стабильным и предсказуемым даже при использовании избыточных архитектур. arXiv · Машинное обучение Новый метод анализа весов нейросетей через динамическое графовое кодирование Исследователи представили метод Dynamic Neural Graph Encoding (DNGE) для анализа весовых пространств глубоких нейронных сетей. Подход рассматривает архитектуру модели как динамический граф, что позволяет эффективно обрабатывать высокоразмерные параметры. В отличие от традиционных методов, DNGE учитывает последовательную природу послойной обработки данных, обеспечивая более точное представление внутренних процессов обучения и инференса моделей. arXiv · Исследования и наука Применение PINN для решения обратной задачи Кальдерона с ограниченными данными Исследователи представили новый метод решения обратной задачи Кальдерона с использованием физико-информированных нейронных сетей (PINN). Подход позволяет восстанавливать резкие изменения проводимости при ограниченном объеме граничных данных. Авторы внедрили многомасштабные граничные возбуждения на основе вейвлет-функций и применили кодирование признаков Фурье, что значительно повысило точность реконструкции сложных структур в условиях неполной информации. arXiv · Машинное обучение Новый метод решения нелинейных уравнений с нейросетями Исследователи предложили новый численный метод для решения нелинейных дифференциальных уравнений с использованием физически информированных нейронных сетей (PINNs). Метод основан на подходе Беллмана-Калабы, который сводит нелинейную задачу к последовательности линейных подзадач. Каждая из них решается методом наименьших квадратов с помощью QR-разложения. arXiv · Исследования и наука fTNN: новый метод тензорных нейронных сетей для дробных дифференциальных уравнений Исследователи представили fTNN — детерминированный метод тензорных нейронных сетей, предназначенный для решения задач с дробным лапласианом на ограниченных доменах. Подход эффективно справляется с дробным уравнением Пуассона и нестационарными уравнениями адвекции-диффузии, используя адаптивное разбиение интеграции с пространственно-зависимым радиусом ближнего поля для повышения точности вычислений в сложных физических моделях.

← Все материалы