arXiv · 23.06.2026 ·Исследования и наука

Масштабирование и проблема потери пластичности в LLM

Исследователи проанализировали, помогает ли увеличение масштаба нейросетей преодолеть потерю пластичности — способности модели усваивать новые данные после завершения основного этапа обучения. В отличие от предыдущих работ, сфокусированных на малых архитектурах, данное исследование изучает этот феномен непосредственно в контексте больших языковых моделей, выявляя фундаментальные ограничения при попытках непрерывного дообучения систем.

Проблема потери пластичности заключается в том, что по мере обучения веса нейронной сети становятся менее восприимчивыми к изменениям, что затрудняет адаптацию модели к новым задачам или обновленной информации. Авторы работы исследуют, является ли этот процесс неизбежным следствием увеличения параметров или его можно минимизировать за счет изменения стратегий обучения и архитектурных подходов.

Результаты показывают, что простое увеличение количества параметров не является панацеей от деградации способности к обучению. Исследование проливает свет на то, как именно происходит «затвердевание» внутренних представлений в современных трансформерах, и ставит под сомнение эффективность текущих подходов к постоянному обновлению знаний в крупных моделях без существенной потери качества их исходных навыков.

Ключевые факты

Исследование сфокусировано на способности нейросетей к непрерывному обучению (continual learning) в домене естественного языка.
Установлено, что масштабирование модели не гарантирует сохранение пластичности при добавлении новых данных.
Работа заполняет пробел в изучении потери пластичности, перенося фокус с малых архитектур на современные LLM.
Выявлены механизмы, из-за которых веса моделей теряют способность к адаптации в процессе длительного обучения.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы