arXiv · 29.06.2026 ·Исследования и наука

Новая теория объясняет способность нейросетей к обобщению через информационные узкие места

Исследователи предложили теоретическую модель, объясняющую, почему перепараметризованные нейронные сети успешно обучаются без катастрофического переобучения. Авторы вводят понятие «информационной фрустрации» в нейронных многообразиях, используя теорию Шеннона для анализа того, как архитектуры с избыточными параметрами эффективно сжимают данные, преодолевая ограничения классических статистических подходов, таких как размерность Вапника-Червоненкиса.

Традиционные методы оценки сложности моделей, такие как сложность Радемахера, часто предсказывают, что современные глубокие сети должны неизбежно переобучаться на обучающей выборке. Однако на практике модели демонстрируют высокую способность к обобщению на новых данных. Новое исследование связывает этот феномен с геометрией нейронных многообразий, утверждая, что структура весов и активаций в процессе обучения создает специфические «узкие места», которые фильтруют шум и выделяют наиболее значимые информационные признаки.

Работа предлагает математический аппарат для понимания того, как именно избыточность параметров помогает сети находить оптимальные решения в пространстве весов. Это позволяет закрыть теоретический разрыв между предсказаниями классической теории обучения и наблюдаемым поведением современных больших языковых моделей и глубоких архитектур, предоставляя более точный инструмент для оценки обучаемости систем.

Ключевые факты

Исследование опирается на теорию Шеннона для описания ограничений обучаемости нейронных сетей.
Предложенная концепция «информационной фрустрации» объясняет, как сети избегают переобучения при избыточном количестве параметров.
Работа преодолевает ограничения классических метрик, таких как размерность VC и сложность Радемахера, которые не учитывают специфику современных глубоких архитектур.
Теоретическая модель описывает динамику обучения через взаимодействие информационных потоков внутри нейронных многообразий.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Физический подход к пониманию обучения и обобщения нейросетей Исследователи представили работу, анализирующую принципы работы глубокого обучения через призму статистической физики. Авторы отмечают, что современные нейронные сети часто демонстрируют поведение, противоречащее классическим статистическим моделям, что требует пересмотра фундаментальных представлений о процессе обучения и способности моделей к обобщению на новых данных. arXiv · Машинное обучение Новое исследование законов масштабирования в квадратичных нейронных сетях Исследователи представили работу, анализирующую зависимость обобщающей способности нейронных сетей от количества обучаемых параметров и объема данных. В отличие от предыдущих моделей, фокусирующихся на фиксированных признаках или бесконечной ширине, авторы изучили динамику обучения в квадратичных сетях. Результаты уточняют, как именно архитектурная ширина и структура данных совместно влияют на итоговую производительность моделей при масштабировании. Hacker News · Исследования и наука Физический подход к пониманию обучения нейросетей Исследователи предложили новую теоретическую модель, объясняющую процесс обучения нейронных сетей через призму статистической физики. Авторы работы провели аналогию между изменением весов модели в процессе тренировки и поведением частиц в физических системах, стремящихся к состоянию минимальной энергии. Этот подход позволяет математически описать, как именно нейросети формируют внутренние представления данных и почему они достигают высокой точности на сложных задачах. arXiv · Исследования и наука Нейронные сети через призму классической линейной регрессии Исследователи опубликовали работу, предлагающую новый взгляд на архитектуру нейронных сетей для специалистов, привыкших к методам классической статистики. Авторы доказывают, что базовые принципы работы нейросетей можно интерпретировать как расширенную форму линейной регрессии. Такой подход помогает преодолеть высокий порог входа в область глубокого обучения для статистиков, работающих в рамках частотной парадигмы. arXiv · Исследования и наука Исследование сходимости методов непрерывного обучения в глубоких нейросетях Исследователи проанализировали динамику непрерывного обучения (continual learning) в однородных глубоких нейросетях, представив процесс как последовательные проекции на множества маржинальных границ задач. Работа доказывает, что глобальная сходимость в таких системах зачастую не достигается, даже в моделях, линейных по данным, но нелинейных по параметрам, что ставит новые вопросы перед архитектурой адаптивных ИИ-систем. arXiv · Машинное обучение Анализ динамики обучения нейросетей через спектральные свойства матрицы Гессе Исследователи представили новый метод анализа процесса обучения нейронных сетей, основанный на изучении динамики собственных векторов матрицы Гессе. Работа раскрывает, как изменение кривизны ландшафта функции потерь коррелирует с выбором оптимизатора и обобщающей способностью модели. Авторы показывают, что отслеживание смещения и локализации этих векторов позволяет глубже понять механизмы оптимизации и стабильность обучения в глубоких архитектурах. arXiv · Исследования и наука Масштабирование и проблема потери пластичности в LLM Исследователи проанализировали, помогает ли увеличение масштаба нейросетей преодолеть потерю пластичности — способности модели усваивать новые данные после завершения основного этапа обучения. В отличие от предыдущих работ, сфокусированных на малых архитектурах, данное исследование изучает этот феномен непосредственно в контексте больших языковых моделей, выявляя фундаментальные ограничения при попытках непрерывного дообучения систем. arXiv · Машинное обучение Новый взгляд на теорию плоских минимумов в глубоком обучении Исследователи поставили под сомнение устоявшееся в глубоком обучении представление о том, что стохастический градиентный спуск (SGD) естественным образом стремится к «плоским» минимумам функции потерь, которые обеспечивают лучшую обобщающую способность нейросетей. Основная проблема заключается в том, что традиционные метрики оценки плоскости, такие как след или максимальное собственное значение гессиана, зависят от конкретной параметризации модели. Это означает, что при изменении представления весов, не влияющем на итоговую функцию сети, показатели «плоскости» могут меняться, что делает их ненадежными инструментами для анализа. arXiv · Исследования и наука Интерпретация механизмов внимания через синтез программ Исследователи представили новый метод интерпретации нейронных сетей, который позволяет заменить непрозрачные вычисления моделей на понятные человеку символьные описания. В центре внимания оказались механизмы внимания (attention heads) в трансформерах, которые традиционно считаются «черным ящиком» из-за сложности их внутренних операций. arXiv · Машинное обучение Оптимизация гиперпараметров в физически информированных нейросетях Исследователи представили новый подход к обучению физически информированных нейронных сетей (PINNs), предназначенных для решения дифференциальных уравнений в частных производных. Основная сложность таких моделей заключается в нестабильной сходимости и высокой чувствительности к выбору гиперпараметров, что вызвано невыпуклой структурой функции потерь, включающей множество физических ограничений.

← Все материалы