Исследователи представили метод Relative Surprisal Index (RSI) для оптимизации обучения LLM с помощью подкрепления с проверяемыми наградами (RLVR). Новый подход позволяет динамически определять, какие токены в процессе генерации рассуждений наиболее важны для достижения правильного результата. Это снижает вычислительные затраты и повышает эффективность обучения моделей при решении сложных логических задач.

Традиционные методы RLVR часто обрабатывают все токены последовательности как равнозначные, что приводит к избыточности и замедлению сходимости. Метод RSI вводит метрику «относительной неожиданности», которая фильтрует менее значимые токены, позволяя алгоритму обучения фокусироваться на ключевых этапах логической цепочки. Это особенно актуально для задач, требующих многошагового планирования и верификации промежуточных выводов.

Применение адаптивного выбора токенов позволяет значительно сократить объем данных, необходимых для дообучения, сохраняя при этом высокую точность модели. Исследование демонстрирует, что фокусировка на наиболее информативных токенах не только ускоряет процесс обучения, но и делает итоговые рассуждения модели более устойчивыми к ошибкам в длинных контекстах.

Ключевые факты

  • Метод основан на использовании Relative Surprisal Index для оценки значимости токенов в процессе RLVR.
  • Подход позволяет динамически исключать из обучения токены, не влияющие на итоговое качество логического вывода.
  • Технология направлена на повышение эффективности обучения моделей в задачах, требующих верифицируемых ответов.
  • Метод снижает вычислительную нагрузку на этапе оптимизации за счет сокращения количества обрабатываемых токенов.