Исследователи обнаружили эффект «естественного разгроккинга» (natural ungrokking), при котором языковые модели в процессе обучения сначала усваивают определенные лингвистические правила, а затем внезапно «забывают» их, несмотря на наличие данных в обучающей выборке. Этот процесс асимметричного контроля над тем, какие закономерности сохраняются в весах модели, ставит под сомнение предсказуемость формирования знаний в ходе претренинга.
В ходе экспериментов модель демонстрировала уверенное владение правилом согласования местоимений по роду, достигая точности 0,94 на ранних этапах обучения. Однако к 3500-му шагу показатель падал почти до нуля. Авторы работы отмечают, что это явление происходит внутри одного цикла обучения и не связано с отсутствием информации в датасете, что указывает на внутреннюю динамику перестройки весов, при которой новые паттерны вытесняют ранее выученные правила.
Данное исследование проливает свет на механизмы обучения нейросетей и проблему нестабильности знаний. Понимание того, почему модели могут терять уже усвоенные навыки, критически важно для разработки более надежных методов обучения и контроля за поведением больших языковых моделей, чтобы избежать деградации логических способностей на поздних стадиях претренинга.
Ключевые факты
- Феномен «естественного разгроккинга» описывает процесс, при котором модель теряет способность применять усвоенное правило, несмотря на постоянное наличие доказательств в данных.
- В тестовом сценарии точность модели в задаче согласования местоимений по роду упала с 0,94 на 925-м шаге до значений, близких к нулю, к 3500-му шагу.
- Исследование подтверждает, что деградация навыков происходит внутри одного цикла обучения (within-run reversal).
- Работа демонстрирует асимметричный характер контроля над тем, какие правила закрепляются в модели, а какие вытесняются в процессе оптимизации.