Исследователи поставили под сомнение устоявшееся в глубоком обучении представление о том, что стохастический градиентный спуск (SGD) естественным образом стремится к «плоским» минимумам функции потерь, которые обеспечивают лучшую обобщающую способность нейросетей. Основная проблема заключается в том, что традиционные метрики оценки плоскости, такие как след или максимальное собственное значение гессиана, зависят от конкретной параметризации модели. Это означает, что при изменении представления весов, не влияющем на итоговую функцию сети, показатели «плоскости» могут меняться, что делает их ненадежными инструментами для анализа.

В работе предложен новый подход — Fisher-Geometric Sharpness. Этот метод основан на использовании метрики Фишера, которая инвариантна к перепараметризации. Авторы доказывают, что геометрическая интерпретация ландшафта потерь через эту метрику позволяет более точно оценивать свойства оптимизации. В отличие от стандартных евклидовых подходов, данный метод учитывает внутреннюю геометрию пространства параметров, что дает более устойчивые результаты при сравнении различных архитектур и стратегий обучения.

Результаты исследования показывают, что использование инвариантных метрик позволяет по-новому взглянуть на динамику обучения нейронных сетей. Это уточняет теоретическую базу, объясняющую, почему определенные конфигурации моделей показывают лучшие результаты на новых данных. Понимание того, как именно алгоритмы оптимизации взаимодействуют с геометрией пространства весов, открывает путь к созданию более эффективных методов обучения, которые не зависят от случайных изменений в архитектурном представлении.