Исследователи представили анализ алгоритма Bregman ADMM для решения задач невыпуклой оптимизации с линейными ограничениями. Авторы заменили стандартное предположение о липшицевости градиента на условие относительной гладкости, основанное на сравнении гессианов относительно ядра Брегмана. Это позволяет эффективно оптимизировать сложные полиномиальные целевые функции в матричных и тензорных моделях, где глобальная константа Липшица зачастую отсутствует.
Метод Bregman ADMM широко используется в задачах машинного обучения, где необходимо учитывать специфическую структуру данных. Переход к условию относительной гладкости расширяет применимость алгоритма на классы задач, которые ранее считались трудноразрешимыми из-за отсутствия гладкости в классическом понимании. Работа доказывает сходимость метода к точкам, удовлетворяющим условиям Каруша-Куна-Таккера (KKT) второго порядка, что гарантирует более высокое качество найденных локальных минимумов.
Данный подход особенно актуален для обучения моделей с тензорными разложениями и глубоких нейронных сетей с невыпуклыми функциями потерь. Математическое обоснование позволяет разработчикам алгоритмов оптимизации более точно настраивать параметры сходимости, минимизируя риск застревания в седловых точках при обучении сложных архитектур.
Ключевые факты
- Предложен новый подход к анализу Bregman ADMM для невыпуклых и нелипшицевых задач.
- Условие относительной гладкости заменяет стандартное требование глобальной липшицевости градиента.
- Алгоритм обеспечивает гарантии сходимости к точкам KKT второго порядка.
- Метод оптимизирован для работы с полиномиальными объектами в матричных и тензорных моделях.