arXiv · 22.06.2026 ·Обучение и дообучение

Randomized YaRN: новый метод улучшения работы LLM с длинными контекстами

Исследователи представили метод Randomized YaRN, направленный на решение проблемы ограниченной длины контекста в больших языковых моделях. Большинство современных LLM проходят предварительное обучение на относительно коротких последовательностях, а затем адаптируются для работы с длинными текстами. Однако даже после дообучения такие модели часто демонстрируют снижение качества при обработке данных, значительно превышающих длину, использованную в процессе адаптации.

Предложенный подход объединяет технику экстраполяции позиционных эмбеддингов YaRN с механизмом рандомизации позиционного кодирования. В процессе обучения модель сталкивается с динамически изменяющимися позиционными индексами, что заставляет её лучше адаптироваться к различным длинам последовательностей, а не просто «запоминать» фиксированные позиции. Это позволяет существенно повысить способность моделей к обобщению при работе с контекстом, выходящим за рамки обучающей выборки.

Результаты экспериментов показывают, что Randomized YaRN помогает моделям сохранять логическую связность и точность при выполнении задач на длинных контекстах, где стандартные методы экстраполяции начинают допускать ошибки. Данная методика может быть эффективно использована при дообучении моделей для работы с большими документами, сложными техническими спецификациями или длинными логами, требующими глубокого анализа без потери контекстной информации.

Источник: arXiv

Похожие материалы

arXiv · Машинное обучение Исследование: как устранить избыточное рассуждение в LLM Учёные изучили проблему избыточного рассуждения (overthinking) в языковых моделях, когда они продолжают генерировать ненужные шаги после нахождения правильного ответа. Это явление особенно заметно в задачах, требующих длинных цепочек рассуждений (chain-of-thought reasoning). arXiv · Оценка и бенчмарки Новый метод борьбы с предвзятостью LLM-судей при оценке качества ответов Исследователи представили новый подход к оценке больших языковых моделей, использующих другие LLM в качестве «судей». Текущие системы автоматической оценки часто страдают от систематических искажений, не связанных с качеством контента. Наиболее выраженной проблемой является «предвзятость к многословию»: модели склонны завышать оценки длинным ответам, даже если они менее точны или информативны, чем краткие варианты. Hacker News · Исследования и наука Исследование: ограничения механизма внимания в современных LLM Ученые проанализировали эффективность архитектуры трансформеров при выполнении задач, требующих длительной концентрации на контексте. В ходе экспериментов выяснилось, что даже самые продвинутые языковые модели демонстрируют снижение точности при обработке длинных последовательностей, если ключевая информация распределена неравномерно или скрыта в середине текста. Этот феномен, известный как «проблема потерянного в середине» (lost in the middle), ставит под вопрос надежность механизмов внимания при работе с большими объемами данных. arXiv · Машинное обучение Новый метод декодирования для борьбы с повторами в LLM Исследователи представили метод Variance-Calibrated Modulation (VCM), направленный на устранение проблемы «ловушки правдоподобия» при генерации текста большими языковыми моделями. Традиционные подходы к декодированию, такие как Top-p или Min-p, часто приводят к монотонности и избыточным повторам, так как модели склонны чрезмерно полагаться на наиболее вероятные токены, игнорируя разнообразие лексики, характерное для человеческой речи. Together.ai · Оркестрация агентов Как слабые модели справляются с длинным контекстом Исследователи из Together AI предложили новый подход к обработке длинных текстов с помощью небольших языковых моделей. Они разработали фреймворк «Divide & Conquer», который разбивает длинные документы на параллельные части и обрабатывает их с помощью нескольких моделей. arXiv · Обучение и дообучение Новый метод обучения LLM через промежуточное RL Исследователи предложили новый подход к обучению языковых моделей (LLM) с использованием reinforcement learning (RL) на промежуточном этапе обучения. В статье, опубликованной на arXiv, авторы показывают, что традиционные методы RL с редкими наградами (sparse reward RL) сильно зависят от начальной подготовки модели. arXiv · Память и RAG ContextRL: контекст-осознанное обучение для улучшения работы ИИ-агентов Исследователи из MIT и других ведущих университетов представили новый метод ContextRL, который улучшает способность языковых моделей (LLM) работать с длинными и сложными контекстами. Проблема заключается в том, что традиционные LLM часто не могут выделить ключевые детали в объемных данных, будь то строка в логах или мелкий элемент на изображении. ContextRL использует методы подкрепляющего обучения (RL), чтобы улучшить долгосрочное рассуждение и работу с мультимодальными данными. arXiv · Исследования и наука ИИ автоматизирует проверку воспроизводимости исследований Учёные из Гарварда и MIT разработали метод, позволяющий использовать большие языковые модели (LLM) для автоматизированной оценки воспроизводимости исследований в социальных и поведенческих науках. Обычно проверка воспроизводимости требует ручного анализа данных независимыми исследователями, что занимает много времени и ресурсов. Новый подход позволяет значительно ускорить этот процесс, применяя LLM для анализа опубликованных данных и оценки их достоверности. arXiv · Машинное обучение ROMEVA: новый метод адаптации словарей для языков с низкой представленностью Исследователи представили метод ROMEVA (Roman Urdu Embedding-preserving Vocabulary Adaptation), направленный на улучшение работы мультиязычных моделей с языками, имеющими нестабильную морфологию и написание. В качестве примера авторы рассматривают романский урду — язык, где отсутствие единых стандартов орфографии приводит к избыточной фрагментации токенов. В стандартных моделях вроде mBERT это создает проблему, при которой один токен разбивается в среднем на 1,5 подслова, что снижает эффективность обработки текста. arXiv · Модели и релизы Новый метод обнаружения ошибок в цепочках рассуждений LLM Исследователи из MIT и Университета Карнеги-Меллона предложили новый подход к выявлению ошибок в цепочках рассуждений языковых моделей (LLM) без использования меток. Их метод, основанный на операдной теории, позволяет обнаруживать несоответствия в логических цепочках, которые модели строят при решении сложных задач.

← Все материалы