Исследователи представили метод обучения языковых моделей, который меняет подход к формированию навыков логического вывода. Традиционное дообучение моделей часто опирается на цепочки рассуждений (chain-of-thought), которые требуют дорогостоящей разметки человеком. Такие данные нередко содержат ошибки или неполные логические переходы, что негативно сказывается на качестве обучения, даже если итоговый ответ модели оказывается верным.

Предложенный подход, названный «рубрицированной самодистилляцией», исключает необходимость в жесткой разметке каждого шага рассуждения. Вместо этого модель обучается на основе заранее заданных критериев оценки — рубрик, которые определяют качество логики. Система оценивает процесс мышления модели через призму этих правил, позволяя ей самостоятельно фильтровать и улучшать свои цепочки рассуждений в процессе обучения.

Этот метод позволяет снизить зависимость от зашумленных человеческих данных и повысить надежность моделей в задачах, требующих многоступенчатых вычислений. Авторы исследования отмечают, что такой подход делает процесс дообучения более эффективным, так как модель учится не просто имитировать готовые ответы, а следовать заданным стандартам логической корректности. Это открывает путь к созданию более автономных и точных систем для решения сложных аналитических задач.