Исследователи из MIT и других университетов выяснили, что инициализация параметров в больших языковых моделях (LLM) играет ключевую роль в их обучении и конечных способностях. В статье, опубликованной на arXiv, авторы утверждают, что уменьшение масштаба инициализации параметров улучшает предобучение моделей.

Ранее основное внимание уделялось масштабу данных, архитектуре и объёму моделей. Однако новое исследование показывает, что инициализация параметров может быть «генотипом» модели, определяющим её потенциал. Это открытие может изменить подходы к разработке LLM.

Эксперименты показали, что уменьшение начальных значений параметров позволяет моделям лучше обучаться и достигать более высоких результатов. Исследователи предполагают, что этот эффект связан с более стабильным и эффективным процессом обучения.

Результаты могут повлиять на будущие исследования в области машинного обучения, особенно в контексте разработки более мощных и эффективных языковых моделей. Учёные планируют продолжить изучение этого явления и его применения в практике.