arXiv · 30.06.2026 ·Исследования и наука

Геометрия обучения: почему нейросети сначала запоминают данные, а потом обобщают

Исследователи выявили геометрическую причину задержки между запоминанием обучающей выборки и способностью нейросетей к обобщению. Процесс оптимизации через кросс-энтропию вызывает «радиальную инфляцию» скрытых представлений, что препятствует быстрому поиску низкоразмерных алгоритмических структур. Авторы предлагают метод радиального подавления, который ускоряет переход модели от простого заучивания данных к формированию устойчивых алгоритмических закономерностей.

В основе работы лежит анализ того, как нейронные сети выстраивают внутренние представления при решении задач, требующих логического вывода. Оказалось, что стандартные методы обучения заставляют веса модели «раздуваться» в пространстве признаков, создавая избыточные связи, которые не несут полезной информации для обобщения. Подавление этого радиального роста позволяет модели быстрее фокусироваться на ключевых геометрических паттернах, лежащих в основе решаемой задачи.

Данное открытие дает теоретическое обоснование для разработки новых методов регуляризации и оптимизации архитектур. Управляя геометрией скрытых слоев, можно сократить время обучения и повысить эффективность моделей в задачах, где критически важно не просто воспроизвести примеры, а выявить скрытый алгоритм решения. Это приближает понимание того, как именно глубокие нейронные сети переходят от статистической аппроксимации к логическому мышлению.

Ключевые факты

Выявлено, что задержка обобщения вызвана радиальной инфляцией скрытых представлений в процессе оптимизации.
Предложен метод радиального подавления (radial suppression) для ускорения перехода к алгоритмическому обобщению.
Исследование фокусируется на задачах, где для успеха необходимо обнаружение структурированных низкоразмерных схем.
Установлена связь между геометрией весов и скоростью перехода от запоминания к пониманию закономерностей.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы