arXiv · 18.06.2026 ·Машинное обучение

Новый взгляд на теорию плоских минимумов в глубоком обучении

Исследователи поставили под сомнение устоявшееся в глубоком обучении представление о том, что стохастический градиентный спуск (SGD) естественным образом стремится к «плоским» минимумам функции потерь, которые обеспечивают лучшую обобщающую способность нейросетей. Основная проблема заключается в том, что традиционные метрики оценки плоскости, такие как след или максимальное собственное значение гессиана, зависят от конкретной параметризации модели. Это означает, что при изменении представления весов, не влияющем на итоговую функцию сети, показатели «плоскости» могут меняться, что делает их ненадежными инструментами для анализа.

В работе предложен новый подход — Fisher-Geometric Sharpness. Этот метод основан на использовании метрики Фишера, которая инвариантна к перепараметризации. Авторы доказывают, что геометрическая интерпретация ландшафта потерь через эту метрику позволяет более точно оценивать свойства оптимизации. В отличие от стандартных евклидовых подходов, данный метод учитывает внутреннюю геометрию пространства параметров, что дает более устойчивые результаты при сравнении различных архитектур и стратегий обучения.

Результаты исследования показывают, что использование инвариантных метрик позволяет по-новому взглянуть на динамику обучения нейронных сетей. Это уточняет теоретическую базу, объясняющую, почему определенные конфигурации моделей показывают лучшие результаты на новых данных. Понимание того, как именно алгоритмы оптимизации взаимодействуют с геометрией пространства весов, открывает путь к созданию более эффективных методов обучения, которые не зависят от случайных изменений в архитектурном представлении.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука Исследование геометрии решений в невыпуклых нейронных сетях Исследователи проанализировали влияние геометрии пространства решений на процесс оптимизации в невыпуклых нейронных сетях. Работа показывает, что алгоритмы эффективно находят широкие и плоские области минимумов, даже если они встречаются редко, в то время как узкие, изолированные кластеры решений остаются практически недоступными. Это объясняет фундаментальные трудности при обучении сложных моделей и выборе оптимальных весов. arXiv · Машинное обучение Анализ динамики обучения нейросетей через спектральные свойства матрицы Гессе Исследователи представили новый метод анализа процесса обучения нейронных сетей, основанный на изучении динамики собственных векторов матрицы Гессе. Работа раскрывает, как изменение кривизны ландшафта функции потерь коррелирует с выбором оптимизатора и обобщающей способностью модели. Авторы показывают, что отслеживание смещения и локализации этих векторов позволяет глубже понять механизмы оптимизации и стабильность обучения в глубоких архитектурах. Hacker News · Исследования и наука Переосмысление теории среднего поля для нейронных сетей Исследователи предложили новый подход к анализу нейронных сетей через призму теории среднего поля, что позволяет глубже понять динамику обучения глубоких моделей. Традиционные методы часто упрощали архитектуры до бесконечной ширины, однако новая работа учитывает конечность слоев и весов, предлагая более точное описание того, как именно нейросети достигают сходимости и обучаются на сложных данных. arXiv · Машинное обучение Новый метод оптимизации градиента для ускорения обучения нейросетей Исследователи представили метод Stochastic Gradient Optimization with Model-Assisted Sampling, направленный на снижение дисперсии при оценке стохастического градиента. Новый подход позволяет эффективнее балансировать между скоростью сходимости и качеством обобщения моделей, минимизируя шум, неизбежно возникающий при использовании стандартных мини-пакетных методов обучения в глубоком обучении. arXiv · Исследования и наука Новая теория объясняет способность нейросетей к обобщению через информационные узкие места Исследователи предложили теоретическую модель, объясняющую, почему перепараметризованные нейронные сети успешно обучаются без катастрофического переобучения. Авторы вводят понятие «информационной фрустрации» в нейронных многообразиях, используя теорию Шеннона для анализа того, как архитектуры с избыточными параметрами эффективно сжимают данные, преодолевая ограничения классических статистических подходов, таких как размерность Вапника-Червоненкиса. arXiv · Исследования и наука Геометрия обучения: почему нейросети сначала запоминают данные, а потом обобщают Исследователи выявили геометрическую причину задержки между запоминанием обучающей выборки и способностью нейросетей к обобщению. Процесс оптимизации через кросс-энтропию вызывает «радиальную инфляцию» скрытых представлений, что препятствует быстрому поиску низкоразмерных алгоритмических структур. Авторы предлагают метод радиального подавления, который ускоряет переход модели от простого заучивания данных к формированию устойчивых алгоритмических закономерностей. arXiv · Исследования и наука Математический подход к безопасности обучения моделей через Langevin Dynamics Исследователи представили новый теоретический метод оценки рисков при обучении нейронных сетей, использующих стохастический градиентный спуск. Авторы рассматривают процесс обучения как передемпфированную динамику Ланжевена и выводят математические границы вероятности попадания параметров модели в «опасные зоны» (failure regions), что позволяет контролировать стабильность и безопасность весов в процессе оптимизации функции потерь. Hacker News · Исследования и наука Нейросетевой подход к моделированию минимальных поверхностей Исследователи представили новый метод нейронного представления минимальных поверхностей, позволяющий эффективно решать задачи дифференциальной геометрии с помощью глубокого обучения. Подход опирается на аппроксимацию функций, минимизирующих площадь, что открывает возможности для более точного моделирования сложных физических структур и оптимизации форм в инженерных задачах, где традиционные численные методы сталкиваются с вычислительными ограничениями. arXiv · Исследования и наука Оптимизация глубины нейросетей через теорию оптимального управления Исследователи предложили новый метод адаптации архитектуры нейронных сетей, основанный на теории оптимального управления. Рассматривая процесс обучения как задачу управления в непрерывном времени, авторы разработали систему апостериорной оценки ошибок. Это позволяет математически точно распределять вычислительную нагрузку по слоям и динамически изменять глубину модели в процессе обучения, повышая эффективность аппроксимации данных. arXiv · Машинное обучение Новый метод оптимизации DSGNAR для обучения физически информированных нейросетей Исследователи представили DSGNAR — фреймворк для оптимизации физически информированных нейронных сетей (PINN). Метод решает проблему плохой обусловленности ландшафта функции потерь, которая препятствует достижению точности классических численных методов при решении дифференциальных уравнений в частных производных. Алгоритм сочетает двойное скетчирование и адаптивное соотношение, обеспечивая масштабируемость и стабильность процесса обучения сложных физических моделей.

← Все материалы