arXiv · 12.06.2026 ·Модели и релизы

Почему самоулучшающиеся модели могут деградировать на новых задачах

Исследователи из Arxiv выявили проблему в популярном подходе к самоулучшению визуально-языковых моделей (VLM), основанном на DPO (Direct Preference Optimization). В таких системах «верфикатор» оценивает генерации модели, а на основе лучших и худших примеров происходит обучение. Авторы показали, что этот метод может привести к деградации модели на новых задачах, несмотря на улучшение на обучающих данных.

Ключевая проблема — в предположении о монотонности: улучшение верфикатора должно приводить к улучшению «студента». Однако на практике верфикатор может начать предпочитать неоптимальные генерации, особенно на новых задачах, что ведёт к регрессии. Это особенно важно для ИИ-агентов, где самоулучшение — ключевой механизм адаптации.

Исследование подчёркивает необходимость более сложных механизмов контроля качества в процессе самообучения. Например, можно использовать дополнительные метрики или ограничивать влияние верфикатора на обучение. Это особенно актуально для агентов, работающих в динамичных средах, где задачи постоянно меняются.

Для разработчиков ИИ-агентов это означает, что при внедрении самоулучшающих механизмов нужно учитывать риски регрессии. Возможно, стоит комбинировать DPO с другими подходами, такими как RAG (Retrieval-Augmented Generation) или MCP (Memory-Augmented Planning), чтобы минимизировать негативные эффекты.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Обучение и дообучение Практические уроки дообучения моделей с помощью обучения с подкреплением Исследователи опубликовали детальный разбор экспериментов по пост-тренировке языковых моделей с использованием обучения с подкреплением (RL). В работе проанализированы ключевые факторы, влияющие на стабильность процесса и итоговое качество ответов, включая выбор стратегий оптимизации, подбор параметров вознаграждения и методы предотвращения деградации модели при интенсивном обучении на предпочтениях пользователей. Hacker News · Обучение и дообучение Почему ИИ-модели перестают учиться Исследование, опубликованное на Tagide, раскрывает феномен "learning stall" — ситуацию, когда ИИ-модели перестают улучшать свои показатели несмотря на дальнейшее обучение. Авторы статьи анализируют причины этого явления, включая насыщение данных, ограничения архитектуры моделей и проблемы с оптимизацией. arXiv · Машинное обучение Почему обучение с подкреплением для ИИ-агентов приводит к деградации моделей Исследователи выявили причину «катастрофического коллапса» при обучении LLM использованию инструментов через Reinforcement Learning (RL). В ходе многошаговых задач модели часто теряют способность корректно вызывать функции, что ведет к резкому падению производительности. Авторы работы предложили метод внедрения дополнительных контролирующих сигналов, который стабилизирует процесс обучения и предотвращает разрушение агентных навыков в сложных сценариях. arXiv · Обучение и дообучение Исследователи выявили феномен «коллапса мышления» при самодистилляции LLM Исследователи обнаружили, что метод самодистилляции (OPSD), используемый для улучшения и выравнивания больших языковых моделей, может приводить к «коллапсу мышления». В сложных задачах на логику этот процесс вызывает резкое снижение способности модели к рассуждению. Авторы работы систематизировали этот эффект, определив его как критическую ловушку оптимизации, и предложили методы для предотвращения деградации производительности при дообучении. arXiv · Исследования и наука Исследование: как языковые модели теряют логику при замене переменных Учёные из MIT и других институтов обнаружили любопытный феномен в языковых моделях: при замене переменных в задачах на каузальное рассуждение на нейтральные маркеры (например, «X» вместо «Джон») модели начинают давать разные ответы, хотя структура вопроса и правильный ответ остаются неизменными. Это указывает на то, что модели либо теряют часть информации при такой замене, либо не могут корректно интерпретировать сохранённую информацию. arXiv · Исследования и наука Исследование причин ошибок генерализации в современных LLM Исследователи проанализировали проблему ошибок генерализации в больших языковых моделях, возникающих из-за разрыва между обучающими выборками и реальными условиями эксплуатации. Авторы предлагают использовать метод смешивания условных политик (Mixtures of Conditional Policies) для создания контролируемых демонстраций, позволяющих систематически выявлять и изучать сбои моделей в упрощенных, но репрезентативных сценариях, что критически важно для повышения надежности ИИ-систем. arXiv · Исследования и наука Риски самодистилляции в обучении LLM: снижение разнообразия ответов Исследователи обнаружили, что метод обучения on-policy self-distillation, использующий одну модель в качестве учителя и ученика, ведет к снижению разнообразия генераций. Несмотря на рост точности pass@1, модель теряет способность к вариативности ответов, что делает бесполезным увеличение количества попыток (pass@k) для улучшения итогового результата. Проблема кроется в накоплении ошибок при обучении на собственных демонстрациях. arXiv · Машинное обучение Математические риски нелинейной агрегации градиентов в обучении моделей Исследователи проанализировали влияние нелинейной агрегации градиентов на сходимость и обобщающую способность моделей. В современных пайплайнах, включающих адаптивность, приватность и робастность, стандартные гарантии выпуклого обучения часто нарушаются из-за потери монотонности оператора обновления. Работа доказывает, что нелинейные методы агрегации могут приводить к нестабильности обучения, что требует пересмотра подходов к оптимизации сложных систем. Hacker News · Машинное обучение Проблема «отравления» данных: обучаются ли новые модели на ИИ-контенте Исследователи и инженеры обсуждают критическую проблему «модельного коллапса», при котором новые поколения языковых моделей обучаются на данных, сгенерированных их предшественниками. Этот процесс приводит к деградации качества ответов, потере разнообразия и накоплению ошибок. Вопрос о том, как фильтровать синтетический контент в обучающих выборках, становится ключевым вызовом для разработчиков современных LLM. Hacker News · Обучение и дообучение Как избежать локальных минимумов в обучении ИИ-агентов В обсуждении на Hacker News пользователи делятся опытом и стратегиями, как избежать или выйти из локальных минимумов при обучении больших языковых моделей (LLM). Локальные минимумы — это ситуации, когда модель перестаёт улучшаться, застревая в неоптимальных решениях. Это особенно актуально для разработчиков ИИ-агентов, где качество модели напрямую влияет на эффективность агентов.

← Все материалы