Исследователи выяснили, что для эффективного обучения с подкреплением (RL) больших языковых моделей не обязательно обновлять все параметры архитектуры. Эксперименты показали, что дообучение всего одного слоя Transformer позволяет достичь результатов, сопоставимых с полной настройкой модели. Это открытие ставит под сомнение необходимость равномерного обновления весов при пост-тренировке LLM и открывает путь к значительной оптимизации вычислительных ресурсов.
Традиционные методы пост-тренировки моделей, такие как PPO или DPO, обычно предполагают, что каждый слой вносит равнозначный вклад в адаптацию модели под конкретные задачи. Авторы работы проанализировали распределение изменений в весах и обнаружили, что критически важные для производительности корректировки концентрируются в специфических слоях. Выборочное обучение этих слоев позволяет сохранить качество ответов, существенно сокращая время и затраты на обучение.
Данный подход значительно упрощает процесс дообучения, так как требует хранения в памяти и обновления лишь малой части параметров. Это делает процесс адаптации моделей более доступным для инфраструктур с ограниченными ресурсами, не снижая при этом итоговую эффективность модели в задачах следования инструкциям и логического вывода.
Ключевые факты
- Исследование доказывает, что обновление одного слоя Transformer обеспечивает производительность, эквивалентную полной настройке всех параметров.
- Метод позволяет сократить вычислительные затраты на этап RL-посттренировки без потери качества генерации.
- Авторы опровергли гипотезу о том, что все слои модели вносят одинаковый вклад в адаптацию при обучении с подкреплением.
- Результаты работы применимы к современным архитектурам LLM, использующим стандартные механизмы внимания и полносвязные слои.