Исследователи представили уточненные теоретические оценки для последнего итерата стохастического субградиентного метода применительно к одномерным выпуклым липшицевым функциям. Авторы доказали, что при фиксированном горизонте итераций $n$ и стандартном шаге $\eta = \Theta(1/\sqrt{n})$ ошибка оптимизации достигает порядка $1/\sqrt{n}$. Это фундаментальное уточнение устраняет необходимость в усреднении итераций для достижения оптимальной сходимости в заданных условиях.
Стохастический субградиентный метод является базовым инструментом в обучении нейронных сетей и оптимизации моделей машинного обучения. Традиционно для обеспечения стабильной сходимости алгоритмов требовалось усреднение результатов всех итераций (Polyak-Ruppert averaging). Новая работа показывает, что при наличии аддитивного шума с ограниченной дисперсией последний итерат сам по себе обладает достаточной точностью, что упрощает теоретический анализ и практическую реализацию алгоритмов оптимизации.
Результаты работы позволяют более точно оценивать скорость сходимости моделей в задачах с выпуклыми целевыми функциями. Это имеет значение для разработки более эффективных оптимизаторов, где минимизация вычислительных затрат на хранение промежуточных состояний и усреднение параметров является критически важной для обучения крупномасштабных систем.
Ключевые факты
- Исследование сфокусировано на одномерных выпуклых липшицевых целевых функциях.
- Доказано, что при шаге $\eta = \Theta(1/\sqrt{n})$ ошибка последнего итерата составляет $O(1/\sqrt{n})$.
- Работа устраняет необходимость в усреднении итераций для достижения теоретического оптимума в рассматриваемом классе задач.
- Результат получен в условиях аддитивного i.i.d. шума субградиента с равномерно ограниченной дисперсией.