arXiv · 17.06.2026 ·Машинное обучение

Новый метод обучения моделей рассуждения через рубрицированную самодистилляцию

Исследователи представили метод обучения языковых моделей, который меняет подход к формированию навыков логического вывода. Традиционное дообучение моделей часто опирается на цепочки рассуждений (chain-of-thought), которые требуют дорогостоящей разметки человеком. Такие данные нередко содержат ошибки или неполные логические переходы, что негативно сказывается на качестве обучения, даже если итоговый ответ модели оказывается верным.

Предложенный подход, названный «рубрицированной самодистилляцией», исключает необходимость в жесткой разметке каждого шага рассуждения. Вместо этого модель обучается на основе заранее заданных критериев оценки — рубрик, которые определяют качество логики. Система оценивает процесс мышления модели через призму этих правил, позволяя ей самостоятельно фильтровать и улучшать свои цепочки рассуждений в процессе обучения.

Этот метод позволяет снизить зависимость от зашумленных человеческих данных и повысить надежность моделей в задачах, требующих многоступенчатых вычислений. Авторы исследования отмечают, что такой подход делает процесс дообучения более эффективным, так как модель учится не просто имитировать готовые ответы, а следовать заданным стандартам логической корректности. Это открывает путь к созданию более автономных и точных систем для решения сложных аналитических задач.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Исследования и наука Новый метод обучения диффузионных моделей для улучшения логических рассуждений Исследователи представили метод Multi-Turn Reflective Masking (MTRM), направленный на повышение способности диффузионных моделей к логическому мышлению. Традиционные диффузионные модели часто сталкиваются с трудностями при решении задач, требующих многошагового планирования или последовательного вывода, так как они генерируют данные итеративно, опираясь на зашумленные представления. Новый подход меняет процесс обучения, внедряя механизм рефлексии в структуру маскирования. arXiv · Обучение и дообучение Исследователи выявили феномен «коллапса мышления» при самодистилляции LLM Исследователи обнаружили, что метод самодистилляции (OPSD), используемый для улучшения и выравнивания больших языковых моделей, может приводить к «коллапсу мышления». В сложных задачах на логику этот процесс вызывает резкое снижение способности модели к рассуждению. Авторы работы систематизировали этот эффект, определив его как критическую ловушку оптимизации, и предложили методы для предотвращения деградации производительности при дообучении. arXiv · Машинное обучение Новый метод обучения мультимодальных моделей через разделение восприятия и рассуждения Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации. arXiv · Машинное обучение Исследование: как устранить избыточное рассуждение в LLM Учёные изучили проблему избыточного рассуждения (overthinking) в языковых моделях, когда они продолжают генерировать ненужные шаги после нахождения правильного ответа. Это явление особенно заметно в задачах, требующих длинных цепочек рассуждений (chain-of-thought reasoning). arXiv · Модели и релизы Новый метод обнаружения ошибок в цепочках рассуждений LLM Исследователи из MIT и Университета Карнеги-Меллона предложили новый подход к выявлению ошибок в цепочках рассуждений языковых моделей (LLM) без использования меток. Их метод, основанный на операдной теории, позволяет обнаруживать несоответствия в логических цепочках, которые модели строят при решении сложных задач. arXiv · Обучение и дообучение DemoPSD: новый метод обучения LLM через модуляцию разногласий Исследователи представили метод DemoPSD (Disagreement-Modulated Policy Self-Distillation), направленный на улучшение процесса самодистилляции больших языковых моделей. Новый подход решает проблему переобучения на паттернах внутри домена, возникающую при использовании стандартной дистилляции, где модель выступает одновременно учителем и учеником. Метод динамически регулирует влияние учительских подсказок, повышая качество логических рассуждений модели. Hacker News · Исследования и наука Исследование DS4: как латентное рассуждение меняет логику LLM Исследователи представили метод DS4 (Deep Search, Deep Synthesis, Deep Selection, Deep Strategy), направленный на улучшение логического мышления языковых моделей. В отличие от стандартных подходов, DS4 фокусируется на латентном рассуждении, позволяя модели глубже анализировать контекст и избегать типичных когнитивных искажений, таких как гендерные стереотипы при решении логических задач. Hacker News · Исследования и наука LLM научились писать себе заметки для улучшения логического мышления Исследователи представили метод, позволяющий языковым моделям самостоятельно генерировать и сохранять промежуточные заметки в процессе решения сложных логических задач. Этот подход значительно повышает точность рассуждений, позволяя модели структурировать мысли и возвращаться к ключевым выводам, что имитирует процесс ведения рабочих записей человеком при выполнении интеллектуальной работы. arXiv · Исследования и наука Knowledgeless Language Models: снижение зависимости от внутренних знаний Исследователи представили концепцию Knowledgeless Language Models — архитектурный подход, направленный на подавление параметрической памяти моделей в пользу опоры на предоставленный контекст. Метод модифицирует процесс предварительного обучения, заставляя нейросеть игнорировать заученные факты, которые часто оказываются устаревшими или неточными, и фокусироваться исключительно на доказательной базе, что критически важно для создания надежных RAG-систем и минимизации галлюцинаций. arXiv · Исследования и наука Новый метод обучения LVLM через визуально обоснованную саморефлексию Исследователи представили метод обучения мультимодальных моделей (LVLM), который улучшает их способность к саморефлексии через подкрепление (RL). В отличие от стандартных моделей, которые часто игнорируют визуальные данные при исправлении ошибок, новый подход заставляет нейросеть опираться на исходное изображение при анализе цепочки рассуждений, что значительно повышает точность коррекции логических выводов.

← Все материалы