arXiv · 24.06.2026 ·Исследования и наука

Риски самодистилляции в обучении LLM: снижение разнообразия ответов

Исследователи обнаружили, что метод обучения on-policy self-distillation, использующий одну модель в качестве учителя и ученика, ведет к снижению разнообразия генераций. Несмотря на рост точности pass@1, модель теряет способность к вариативности ответов, что делает бесполезным увеличение количества попыток (pass@k) для улучшения итогового результата. Проблема кроется в накоплении ошибок при обучении на собственных демонстрациях.

Метод самодистилляции предполагает, что модель обучается на основе правильных примеров, которые она сама же и генерирует. Хотя это позволяет эффективно передавать знания на уровне токенов, процесс приводит к «схлопыванию» распределения вероятностей. В результате модель начинает выдавать идентичные или очень похожие ответы, что критически важно для задач, где требуется широкий охват возможных решений или поиск оптимального пути в пространстве рассуждений.

Авторы работы связывают этот эффект с накоплением систематических искажений в процессе итеративного обучения. Когда модель постоянно учится на собственных предсказаниях, она начинает воспроизводить одни и те же паттерны, игнорируя альтернативные способы решения задачи. Это ограничивает эффективность стратегий, основанных на сэмплировании множества вариантов, таких как Best-of-N или методы поиска по дереву, которые полагаются на разнообразие генераций для повышения качества.

Ключевые факты

Метод on-policy self-distillation повышает точность pass@1, но снижает общее разнообразие сгенерированных ответов.
Увеличение количества попыток (pass@k) перестает приносить прирост точности из-за высокой корреляции между генерациями.
Проблема вызвана накоплением ошибок в процессе обучения, когда модель становится слишком зависимой от собственных демонстраций.
Исследование подчеркивает необходимость баланса между точностью на конкретном примере и сохранением широкого пространства поиска для сложных задач.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Исследования и наука Ограничения метода имитации проприетарных LLM Исследование показывает, что дообучение моделей с открытым исходным кодом на ответах проприетарных LLM (метод дистилляции) часто приводит лишь к поверхностной имитации стиля, а не к реальному росту интеллектуальных способностей. Авторы доказывают, что такие модели склонны копировать ошибки и галлюцинации «учителя», не приобретая глубинных навыков рассуждения, необходимых для решения сложных задач. arXiv · Машинное обучение Исследование влияния позиционного смещения в методах дистилляции моделей Исследователи проанализировали эффективность метода On-Policy Distillation (OPD), который используется для ускорения обучения моделей с подкреплением через пошаговый контроль со стороны «учителя». Стандартный подход предполагает равномерное распределение весов для всех токенов при расчете функции потерь, однако новая работа доказывает, что такой метод не учитывает накопленные ошибки в длинных последовательностях. arXiv · Модели и релизы Почему самоулучшающиеся модели могут деградировать на новых задачах Исследователи из Arxiv выявили проблему в популярном подходе к самоулучшению визуально-языковых моделей (VLM), основанном на DPO (Direct Preference Optimization). В таких системах «верфикатор» оценивает генерации модели, а на основе лучших и худших примеров происходит обучение. Авторы показали, что этот метод может привести к деградации модели на новых задачах, несмотря на улучшение на обучающих данных. arXiv · Машинное обучение Новый метод обучения dLLMs через самодистилляцию Исследователи предложили новый подход к обучению диффузионных языковых моделей (dLLMs) — on-policy self-distillation (OPSD). Этот метод уже показал свою эффективность для обычных языковых моделей, но его применение к dLLMs оставалось неизученным. Hacker News · Машинное обучение Ограничения обучения на знаниях LLM Исследование указывает на фундаментальную проблему при попытке дообучения моделей на основе их собственных ответов. Авторы анализируют, почему использование синтетических данных, сгенерированных самой нейросетью, часто приводит к деградации качества, а не к улучшению навыков. Основная сложность заключается в том, что модель при дообучении начинает воспроизводить собственные статистические ошибки и галлюцинации, закрепляя их как эталонные знания. arXiv · Машинное обучение Почему обучение с подкреплением для ИИ-агентов приводит к деградации моделей Исследователи выявили причину «катастрофического коллапса» при обучении LLM использованию инструментов через Reinforcement Learning (RL). В ходе многошаговых задач модели часто теряют способность корректно вызывать функции, что ведет к резкому падению производительности. Авторы работы предложили метод внедрения дополнительных контролирующих сигналов, который стабилизирует процесс обучения и предотвращает разрушение агентных навыков в сложных сценариях. arXiv · Машинное обучение Новый метод обучения моделей рассуждения через рубрицированную самодистилляцию Исследователи представили метод обучения языковых моделей, который меняет подход к формированию навыков логического вывода. Традиционное дообучение моделей часто опирается на цепочки рассуждений (chain-of-thought), которые требуют дорогостоящей разметки человеком. Такие данные нередко содержат ошибки или неполные логические переходы, что негативно сказывается на качестве обучения, даже если итоговый ответ модели оказывается верным. arXiv · Машинное обучение Новый метод обучения мультимодальных моделей через разделение восприятия и рассуждения Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации. arXiv · Безопасность и алайнмент Метод защиты LLM от отравления данных при дообучении Исследователи представили метод «Detect, Unlearn, Restore» для защиты моделей суммаризации текста от атак типа data poisoning. Техника позволяет выявлять вредоносные примеры в обучающей выборке, удалять их влияние на веса модели и восстанавливать исходную производительность системы. Это критически важно для защиты специализированных LLM, которые подвержены манипуляциям через небольшие наборы данных при дообучении. arXiv · Машинное обучение Метод MAST для точечного удаления нежелательных навыков рассуждения в LLM Исследователи представили метод MAST (Mechanism-Aligned Selective Targeting), предназначенный для избирательного удаления специфических паттернов рассуждения, привитых моделям через обучение с подкреплением (RLVR). Традиционные подходы к «забыванию» (unlearning) часто приводят к деградации общих способностей модели из-за полнопараметрических обновлений. Новый метод позволяет изолировать и корректировать только те веса, которые отвечают за конкретные логические цепочки, минимизируя побочный ущерб для базовых знаний модели.

← Все материалы