arXiv · 23.06.2026 ·Машинное обучение

Новые теоретические границы для стохастического субградиентного метода

Исследователи представили уточненные теоретические оценки для последнего итерата стохастического субградиентного метода применительно к одномерным выпуклым липшицевым функциям. Авторы доказали, что при фиксированном горизонте итераций $n$ и стандартном шаге $\eta = \Theta(1/\sqrt{n})$ ошибка оптимизации достигает порядка $1/\sqrt{n}$. Это фундаментальное уточнение устраняет необходимость в усреднении итераций для достижения оптимальной сходимости в заданных условиях.

Стохастический субградиентный метод является базовым инструментом в обучении нейронных сетей и оптимизации моделей машинного обучения. Традиционно для обеспечения стабильной сходимости алгоритмов требовалось усреднение результатов всех итераций (Polyak-Ruppert averaging). Новая работа показывает, что при наличии аддитивного шума с ограниченной дисперсией последний итерат сам по себе обладает достаточной точностью, что упрощает теоретический анализ и практическую реализацию алгоритмов оптимизации.

Результаты работы позволяют более точно оценивать скорость сходимости моделей в задачах с выпуклыми целевыми функциями. Это имеет значение для разработки более эффективных оптимизаторов, где минимизация вычислительных затрат на хранение промежуточных состояний и усреднение параметров является критически важной для обучения крупномасштабных систем.

Ключевые факты

Исследование сфокусировано на одномерных выпуклых липшицевых целевых функциях.
Доказано, что при шаге $\eta = \Theta(1/\sqrt{n})$ ошибка последнего итерата составляет $O(1/\sqrt{n})$.
Работа устраняет необходимость в усреднении итераций для достижения теоретического оптимума в рассматриваемом классе задач.
Результат получен в условиях аддитивного i.i.d. шума субградиента с равномерно ограниченной дисперсией.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы