Исследователи представили метод Randomized YaRN, направленный на решение проблемы ограниченной длины контекста в больших языковых моделях. Большинство современных LLM проходят предварительное обучение на относительно коротких последовательностях, а затем адаптируются для работы с длинными текстами. Однако даже после дообучения такие модели часто демонстрируют снижение качества при обработке данных, значительно превышающих длину, использованную в процессе адаптации.

Предложенный подход объединяет технику экстраполяции позиционных эмбеддингов YaRN с механизмом рандомизации позиционного кодирования. В процессе обучения модель сталкивается с динамически изменяющимися позиционными индексами, что заставляет её лучше адаптироваться к различным длинам последовательностей, а не просто «запоминать» фиксированные позиции. Это позволяет существенно повысить способность моделей к обобщению при работе с контекстом, выходящим за рамки обучающей выборки.

Результаты экспериментов показывают, что Randomized YaRN помогает моделям сохранять логическую связность и точность при выполнении задач на длинных контекстах, где стандартные методы экстраполяции начинают допускать ошибки. Данная методика может быть эффективно использована при дообучении моделей для работы с большими документами, сложными техническими спецификациями или длинными логами, требующими глубокого анализа без потери контекстной информации.