Исследователи проанализировали, помогает ли увеличение масштаба нейросетей преодолеть потерю пластичности — способности модели усваивать новые данные после завершения основного этапа обучения. В отличие от предыдущих работ, сфокусированных на малых архитектурах, данное исследование изучает этот феномен непосредственно в контексте больших языковых моделей, выявляя фундаментальные ограничения при попытках непрерывного дообучения систем.
Проблема потери пластичности заключается в том, что по мере обучения веса нейронной сети становятся менее восприимчивыми к изменениям, что затрудняет адаптацию модели к новым задачам или обновленной информации. Авторы работы исследуют, является ли этот процесс неизбежным следствием увеличения параметров или его можно минимизировать за счет изменения стратегий обучения и архитектурных подходов.
Результаты показывают, что простое увеличение количества параметров не является панацеей от деградации способности к обучению. Исследование проливает свет на то, как именно происходит «затвердевание» внутренних представлений в современных трансформерах, и ставит под сомнение эффективность текущих подходов к постоянному обновлению знаний в крупных моделях без существенной потери качества их исходных навыков.
Ключевые факты
- Исследование сфокусировано на способности нейросетей к непрерывному обучению (continual learning) в домене естественного языка.
- Установлено, что масштабирование модели не гарантирует сохранение пластичности при добавлении новых данных.
- Работа заполняет пробел в изучении потери пластичности, перенося фокус с малых архитектур на современные LLM.
- Выявлены механизмы, из-за которых веса моделей теряют способность к адаптации в процессе длительного обучения.