arXiv · 01.07.2026 ·Исследования и наука

Обучение одного слоя Transformer может заменить полную настройку RL

Исследователи выяснили, что для эффективного обучения с подкреплением (RL) больших языковых моделей не обязательно обновлять все параметры архитектуры. Эксперименты показали, что дообучение всего одного слоя Transformer позволяет достичь результатов, сопоставимых с полной настройкой модели. Это открытие ставит под сомнение необходимость равномерного обновления весов при пост-тренировке LLM и открывает путь к значительной оптимизации вычислительных ресурсов.

Традиционные методы пост-тренировки моделей, такие как PPO или DPO, обычно предполагают, что каждый слой вносит равнозначный вклад в адаптацию модели под конкретные задачи. Авторы работы проанализировали распределение изменений в весах и обнаружили, что критически важные для производительности корректировки концентрируются в специфических слоях. Выборочное обучение этих слоев позволяет сохранить качество ответов, существенно сокращая время и затраты на обучение.

Данный подход значительно упрощает процесс дообучения, так как требует хранения в памяти и обновления лишь малой части параметров. Это делает процесс адаптации моделей более доступным для инфраструктур с ограниченными ресурсами, не снижая при этом итоговую эффективность модели в задачах следования инструкциям и логического вывода.

Ключевые факты

Исследование доказывает, что обновление одного слоя Transformer обеспечивает производительность, эквивалентную полной настройке всех параметров.
Метод позволяет сократить вычислительные затраты на этап RL-посттренировки без потери качества генерации.
Авторы опровергли гипотезу о том, что все слои модели вносят одинаковый вклад в адаптацию при обучении с подкреплением.
Результаты работы применимы к современным архитектурам LLM, использующим стандартные механизмы внимания и полносвязные слои.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы