arXiv · 02.07.2026 ·Обучение и дообучение

DemoPSD: новый метод обучения LLM через модуляцию разногласий

Исследователи представили метод DemoPSD (Disagreement-Modulated Policy Self-Distillation), направленный на улучшение процесса самодистилляции больших языковых моделей. Новый подход решает проблему переобучения на паттернах внутри домена, возникающую при использовании стандартной дистилляции, где модель выступает одновременно учителем и учеником. Метод динамически регулирует влияние учительских подсказок, повышая качество логических рассуждений модели.

Традиционные методы обучения с учителем (OPSD) часто страдают от того, что модель-учитель предоставляет слишком детальные пошаговые инструкции, основанные на привилегированной информации. Это приводит к тому, что модель-ученик начинает слепо копировать стиль ответов, вместо того чтобы развивать собственные навыки решения задач. DemoPSD вводит механизм модуляции, который анализирует расхождения между предсказаниями учителя и ученика, позволяя модели эффективнее фильтровать полезные сигналы.

Авторы метода продемонстрировали, что ограничение «плотности» контроля со стороны учителя помогает модели лучше обобщать знания на новые типы задач. Вместо того чтобы заставлять ученика повторять каждый шаг учителя, DemoPSD фокусируется на ключевых этапах рассуждения, где возникают наибольшие разногласия. Это позволяет снизить зависимость от специфических шаблонов данных и повысить устойчивость модели к сложным логическим запросам.

Ключевые факты

DemoPSD использует модуляцию разногласий для управления процессом обучения, предотвращая избыточную фиксацию на учительских подсказках.
Метод направлен на решение проблемы переобучения на внутридоменных паттернах, характерной для классической самодистилляции.
Подход позволяет модели-ученику развивать более гибкие стратегии рассуждения, снижая влияние привилегированной информации учителя.
Исследование опубликовано на платформе arXiv и предлагает альтернативу стандартным методам обучения LLM с использованием токенов-подсказок.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Новый метод обучения dLLMs через самодистилляцию Исследователи предложили новый подход к обучению диффузионных языковых моделей (dLLMs) — on-policy self-distillation (OPSD). Этот метод уже показал свою эффективность для обычных языковых моделей, но его применение к dLLMs оставалось неизученным. arXiv · Обучение и дообучение DOPD: новый метод дистилляции моделей с использованием привилегированной информации Исследователи представили метод Dual On-policy Distillation (DOPD), направленный на повышение эффективности обучения компактных моделей через дистилляцию знаний. Подход решает проблему потери качества при использовании привилегированной информации, разделяя процессы обучения учителя и ученика. Это позволяет передавать более точные сигналы на уровне токенов, улучшая производительность моделей без необходимости в чрезмерных вычислительных ресурсах. arXiv · Исследования и наука Исследование Purified OPSD: почему самодистилляция вредит длинным цепочкам рассуждений Исследователи проанализировали метод on-policy self-distillation (OPSD), используемый для улучшения логических способностей LLM через обучение на собственных траекториях с подсказками «учителя». Выяснилось, что при работе с длинными цепочками рассуждений (long-CoT) этот подход не только не дает значимого прироста производительности, но и дестабилизирует процесс обучения, приводя к деградации способности модели к глубокому мышлению. arXiv · Машинное обучение Новый метод обучения моделей рассуждения через рубрицированную самодистилляцию Исследователи представили метод обучения языковых моделей, который меняет подход к формированию навыков логического вывода. Традиционное дообучение моделей часто опирается на цепочки рассуждений (chain-of-thought), которые требуют дорогостоящей разметки человеком. Такие данные нередко содержат ошибки или неполные логические переходы, что негативно сказывается на качестве обучения, даже если итоговый ответ модели оказывается верным. arXiv · Исследования и наука Риски самодистилляции в обучении LLM: снижение разнообразия ответов Исследователи обнаружили, что метод обучения on-policy self-distillation, использующий одну модель в качестве учителя и ученика, ведет к снижению разнообразия генераций. Несмотря на рост точности pass@1, модель теряет способность к вариативности ответов, что делает бесполезным увеличение количества попыток (pass@k) для улучшения итогового результата. Проблема кроется в накоплении ошибок при обучении на собственных демонстрациях. arXiv · Исследования и наука Метод PHF для улучшения обучения моделей рассуждения через самодистилляцию Исследователи представили метод Privileged Hidden Flow (PHF), оптимизирующий процесс обучения моделей рассуждения с помощью самодистилляции. В отличие от стандартных подходов, фокусирующихся только на выходных токенах, PHF напрямую контролирует внутренние скрытые состояния модели, сопоставляя их с «привилегированным» учителем, имеющим доступ к верифицированным решениям. Это позволяет эффективнее передавать логику рассуждений и повышать точность генерации ответов. arXiv · Машинное обучение Новый метод Process Advantage Signal Shaping для обучения LLM с рассуждениями Исследователи представили метод Process Advantage Signal Shaping (PASS), направленный на оптимизацию обучения LLM с использованием подкрепления (RL). Новый подход решает проблему нестабильности сигналов при использовании GRPO, позволяя более эффективно интегрировать пошаговые награды (PRM) в процесс обучения моделей, склонных к сложным логическим рассуждениям, что повышает точность итоговых ответов. arXiv · Машинное обучение Исследование: как устранить избыточное рассуждение в LLM Учёные изучили проблему избыточного рассуждения (overthinking) в языковых моделях, когда они продолжают генерировать ненужные шаги после нахождения правильного ответа. Это явление особенно заметно в задачах, требующих длинных цепочек рассуждений (chain-of-thought reasoning). arXiv · Машинное обучение Исследование влияния позиционного смещения в методах дистилляции моделей Исследователи проанализировали эффективность метода On-Policy Distillation (OPD), который используется для ускорения обучения моделей с подкреплением через пошаговый контроль со стороны «учителя». Стандартный подход предполагает равномерное распределение весов для всех токенов при расчете функции потерь, однако новая работа доказывает, что такой метод не учитывает накопленные ошибки в длинных последовательностях. arXiv · Машинное обучение Новый метод обучения мультимодальных моделей через разделение восприятия и рассуждения Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации.

← Все материалы