arXiv · 30.06.2026 ·Машинное обучение

Адаптивный выбор токенов для оптимизации обучения LLM с подкреплением

Исследователи представили метод Relative Surprisal Index (RSI) для оптимизации обучения LLM с помощью подкрепления с проверяемыми наградами (RLVR). Новый подход позволяет динамически определять, какие токены в процессе генерации рассуждений наиболее важны для достижения правильного результата. Это снижает вычислительные затраты и повышает эффективность обучения моделей при решении сложных логических задач.

Традиционные методы RLVR часто обрабатывают все токены последовательности как равнозначные, что приводит к избыточности и замедлению сходимости. Метод RSI вводит метрику «относительной неожиданности», которая фильтрует менее значимые токены, позволяя алгоритму обучения фокусироваться на ключевых этапах логической цепочки. Это особенно актуально для задач, требующих многошагового планирования и верификации промежуточных выводов.

Применение адаптивного выбора токенов позволяет значительно сократить объем данных, необходимых для дообучения, сохраняя при этом высокую точность модели. Исследование демонстрирует, что фокусировка на наиболее информативных токенах не только ускоряет процесс обучения, но и делает итоговые рассуждения модели более устойчивыми к ошибкам в длинных контекстах.

Ключевые факты

Метод основан на использовании Relative Surprisal Index для оценки значимости токенов в процессе RLVR.
Подход позволяет динамически исключать из обучения токены, не влияющие на итоговое качество логического вывода.
Технология направлена на повышение эффективности обучения моделей в задачах, требующих верифицируемых ответов.
Метод снижает вычислительную нагрузку на этапе оптимизации за счет сокращения количества обрабатываемых токенов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука Исследование факторов эффективности обучения с подкреплением для рассуждений LLM Исследователи проанализировали механизмы обучения с подкреплением на основе верифицируемых наград (RLVR), которые активно применяются для улучшения логических способностей больших языковых моделей. Несмотря на популярность метода, текущие подходы к его реализации часто опираются на эмпирические догадки, что приводит к разрозненным и порой противоречивым алгоритмическим решениям. Авторы работы систематизировали ключевые факторы, влияющие на стабильность и результативность процесса обучения. arXiv · Исследования и наука Исследование Tandem RLVR: как улучшить логику LLM через проверяемые награды Исследователи представили метод Tandem Reinforcement Learning with Verifiable Rewards (RLVR), направленный на повышение логических способностей больших языковых моделей. Метод решает проблему дрейфа модели в сторону неэффективных или идиосинкразических паттернов рассуждений, которые часто возникают при стандартном обучении с подкреплением, обеспечивая более стабильное достижение экспертных результатов в сложных задачах, таких как олимпиадная математика. arXiv · Машинное обучение Метод RiVER позволяет обучать LLM с подкреплением без эталонных ответов Исследователи представили фреймворк RiVER (Ranking-induced VERifiable), который позволяет обучать языковые модели методом обучения с подкреплением (RL) в задачах, где отсутствуют заранее известные эталонные решения. Вместо сравнения с «золотым стандартом» система использует ранжирование ответов для оптимизации, что расширяет возможности применения RL в областях, где оценка качества результата носит субъективный или эвристический характер. arXiv · Машинное обучение Оптимизация инференса LLM через адаптивную глубину декодирования Исследователи представили метод Depth Exploration, оптимизирующий процесс генерации токенов в авторегрессионных моделях. Вместо прогона каждого токена через все слои нейросети, система динамически определяет глубину вычислений, необходимую для уверенного предсказания. Это позволяет существенно сократить вычислительные затраты при сохранении точности, так как многие токены становятся предсказуемыми на промежуточных этапах обработки данных внутри архитектуры модели. arXiv · Обучение и дообучение Новый метод обучения LLM через промежуточное RL Исследователи предложили новый подход к обучению языковых моделей (LLM) с использованием reinforcement learning (RL) на промежуточном этапе обучения. В статье, опубликованной на arXiv, авторы показывают, что традиционные методы RL с редкими наградами (sparse reward RL) сильно зависят от начальной подготовки модели. arXiv · Машинное обучение Метод MAST для точечного удаления нежелательных навыков рассуждения в LLM Исследователи представили метод MAST (Mechanism-Aligned Selective Targeting), предназначенный для избирательного удаления специфических паттернов рассуждения, привитых моделям через обучение с подкреплением (RLVR). Традиционные подходы к «забыванию» (unlearning) часто приводят к деградации общих способностей модели из-за полнопараметрических обновлений. Новый метод позволяет изолировать и корректировать только те веса, которые отвечают за конкретные логические цепочки, минимизируя побочный ущерб для базовых знаний модели. arXiv · Исследования и наука Метакогнитивная обратная связь повышает точность оценки уверенности LLM Исследователи представили метод обучения с подкреплением (RL), который наделяет большие языковые модели способностью к метапознанию — мониторингу собственных когнитивных процессов. Внедрение метакогнитивной обратной связи позволяет моделям более точно выражать внутреннюю неуверенность, снижая склонность к самоуверенным галлюцинациям и помогая системе лучше распознавать границы своих знаний в сложных задачах. arXiv · Исследования и наука Улучшение точности прогнозирования LLM через управление признаками Исследователи представили метод повышения качества прогнозирования в больших языковых моделях, основанный на анализе их внутренних состояний. Используя разреженные автокодировщики, авторы выявили, что модели часто опираются на специфические временные знания, а не на общие закономерности. Управление этими внутренними признаками позволяет сместить фокус модели на обобщаемые паттерны, что значительно повышает точность предсказаний в различных задачах. arXiv · Обучение и дообучение Использование RL-обучения для улучшения агентных способностей LLM Исследователи обнаружили, что стандартное обучение с подкреплением (RL) при дообучении моделей уже содержит скрытый потенциал для улучшения агентных навыков. Авторы работы доказывают, что этот процесс позволяет эффективно оценивать пошаговые действия моделей без необходимости в сложных внешних системах вознаграждения, что критически важно для решения долгосрочных задач в стохастических средах, где традиционные методы аннотирования данных практически не работают. Hacker News · Исследования и наука HRM-Text: новый подход к эффективному дообучению языковых моделей Исследователи представили HRM-Text — метод повышения эффективности предобучения языковых моделей, который выходит за рамки простого увеличения вычислительных мощностей. Авторы предлагают оптимизированный подход к обработке данных и архитектурным изменениям, позволяющий достичь высокой производительности при меньших затратах ресурсов. Это значимый шаг в сторону оптимизации обучения LLM, делающий создание мощных моделей более доступным и экономически оправданным.

← Все материалы