arXiv · 24.06.2026 ·Машинное обучение

Почему обучение с подкреплением для ИИ-агентов приводит к деградации моделей

Исследователи выявили причину «катастрофического коллапса» при обучении LLM использованию инструментов через Reinforcement Learning (RL). В ходе многошаговых задач модели часто теряют способность корректно вызывать функции, что ведет к резкому падению производительности. Авторы работы предложили метод внедрения дополнительных контролирующих сигналов, который стабилизирует процесс обучения и предотвращает разрушение агентных навыков в сложных сценариях.

Проблема заключается в том, что стандартные методы обучения с подкреплением в агентных средах часто оказываются нестабильными. Когда модель пытается оптимизировать цепочку вызовов инструментов, малейшая ошибка на раннем этапе накапливается, искажая структуру ответов и приводя к полной потере логики взаимодействия с внешними API. Это делает текущие подходы к автоматическому обучению агентов крайне чувствительными к выбору гиперпараметров и качеству среды.

Предложенное решение основано на введении вспомогательных сигналов контроля, которые направляют модель в процессе принятия решений. Вместо того чтобы полагаться исключительно на итоговый результат выполнения задачи, система анализирует промежуточные этапы использования инструментов. Это позволяет модели сохранять корректную структуру вызовов и избегать деградации даже при длительных цепочках рассуждений и действий.

Ключевые факты

Выявлен эффект «катастрофического коллапса», при котором производительность агента резко падает из-за ошибок в структуре вызова инструментов.
Установлено, что стандартное обучение с подкреплением (RL) без внешнего контроля недостаточно для стабильной работы многошаговых агентных систем.
Внедрение дополнительных контролирующих сигналов (supervisory signals) позволяет стабилизировать обучение и повысить надежность вызова функций.
Исследование сфокусировано на устранении разрыва между теоретическими возможностями LLM и их практической реализацией в агентных архитектурах.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Обучение и дообучение Использование RL-обучения для улучшения агентных способностей LLM Исследователи обнаружили, что стандартное обучение с подкреплением (RL) при дообучении моделей уже содержит скрытый потенциал для улучшения агентных навыков. Авторы работы доказывают, что этот процесс позволяет эффективно оценивать пошаговые действия моделей без необходимости в сложных внешних системах вознаграждения, что критически важно для решения долгосрочных задач в стохастических средах, где традиционные методы аннотирования данных практически не работают. Hacker News · Исследования и наука Почему LLM теряют точность при выполнении длинных циклических задач Исследование выявило критическую проблему в работе больших языковых моделей при выполнении многошаговых итеративных процессов. С увеличением количества циклов вероятность ошибки возрастает экспоненциально из-за накопления отклонений от заданного протокола. Автор анализа вводит понятие «периода полураспада соблюдения протокола», объясняя, почему даже продвинутые модели склонны к деградации логики при выполнении длинных последовательностей действий. arXiv · Машинное обучение Укрепление киберфизических систем с помощью обучения с подкреплением Исследователи проанализировали эффективность контроллеров на базе обучения с подкреплением (Reinforcement Learning, RL) в нелинейных системах, подверженных внешним кибератакам. В работе рассматриваются сценарии с внедрением ложных данных и атаками типа «отказ в обслуживании» (DoS), которые представляют серьезную угрозу для критической инфраструктуры и автоматизированных производственных процессов. Hacker News · Оркестрация агентов Метод контроля стабильности LLM-агентов через теорию Ляпунова Разработан новый подход к мониторингу автономных ИИ-агентов, основанный на классической теории устойчивости Ляпунова. Инструмент позволяет отслеживать состояние системы в процессе выполнения задач и выявлять моменты, когда агент начинает совершать циклические ошибки или теряет логическую последовательность действий. Это помогает предотвратить «зацикливание» модели, при котором она бесконечно повторяет неверные шаги или отклоняется от заданного алгоритма решения. arXiv · Обучение и дообучение Новый метод обучения LLM через промежуточное RL Исследователи предложили новый подход к обучению языковых моделей (LLM) с использованием reinforcement learning (RL) на промежуточном этапе обучения. В статье, опубликованной на arXiv, авторы показывают, что традиционные методы RL с редкими наградами (sparse reward RL) сильно зависят от начальной подготовки модели. Hacker News · Исследования и наука Исследование: могут ли LLM-агенты строить модели мира Учёные изучают способность языковых моделей (LLM) строить модели мира через агентное поведение. В новом исследовании, опубликованном на arXiv, рассматривается, как агентные автоматические системы могут обучаться и адаптироваться в динамических средах. arXiv · Исследования и наука Исследование факторов эффективности обучения с подкреплением для рассуждений LLM Исследователи проанализировали механизмы обучения с подкреплением на основе верифицируемых наград (RLVR), которые активно применяются для улучшения логических способностей больших языковых моделей. Несмотря на популярность метода, текущие подходы к его реализации часто опираются на эмпирические догадки, что приводит к разрозненным и порой противоречивым алгоритмическим решениям. Авторы работы систематизировали ключевые факторы, влияющие на стабильность и результативность процесса обучения. arXiv · Машинное обучение Модельно-ориентированный подход к созданию сред для обучения с подкреплением Исследователи представили новый подход к разработке виртуальных сред, предназначенных для обучения агентов с подкреплением (RL). Традиционно создание таких систем требует значительных затрат времени, так как для успешной сходимости алгоритмов агентам необходимо тренироваться в множестве схожих, но вариативных условий. Авторы работы предлагают использовать модельно-ориентированную методологию, которая позволяет автоматизировать генерацию семейств сред, сохраняя при этом их функциональную близость. arXiv · Модели и релизы Почему самоулучшающиеся модели могут деградировать на новых задачах Исследователи из Arxiv выявили проблему в популярном подходе к самоулучшению визуально-языковых моделей (VLM), основанном на DPO (Direct Preference Optimization). В таких системах «верфикатор» оценивает генерации модели, а на основе лучших и худших примеров происходит обучение. Авторы показали, что этот метод может привести к деградации модели на новых задачах, несмотря на улучшение на обучающих данных. Hacker News · Оценка и бенчмарки Проблемы использования LLM в качестве судей для оценки ИИ-агентов Современные подходы к тестированию ИИ-агентов все чаще полагаются на автоматизированную оценку с помощью других языковых моделей, так называемых «LLM-as-a-judge». Однако практика показывает, что такие судьи склонны к предвзятости и поверхностному анализу. В ходе экспериментов исследователи обнаружили, что модели-судьи могут выставлять высокие баллы ответам агентов, даже если те не выполнили ключевые действия — например, не открыли необходимый для решения задачи файл.

← Все материалы