Исследователи выявили причину «катастрофического коллапса» при обучении LLM использованию инструментов через Reinforcement Learning (RL). В ходе многошаговых задач модели часто теряют способность корректно вызывать функции, что ведет к резкому падению производительности. Авторы работы предложили метод внедрения дополнительных контролирующих сигналов, который стабилизирует процесс обучения и предотвращает разрушение агентных навыков в сложных сценариях.

Проблема заключается в том, что стандартные методы обучения с подкреплением в агентных средах часто оказываются нестабильными. Когда модель пытается оптимизировать цепочку вызовов инструментов, малейшая ошибка на раннем этапе накапливается, искажая структуру ответов и приводя к полной потере логики взаимодействия с внешними API. Это делает текущие подходы к автоматическому обучению агентов крайне чувствительными к выбору гиперпараметров и качеству среды.

Предложенное решение основано на введении вспомогательных сигналов контроля, которые направляют модель в процессе принятия решений. Вместо того чтобы полагаться исключительно на итоговый результат выполнения задачи, система анализирует промежуточные этапы использования инструментов. Это позволяет модели сохранять корректную структуру вызовов и избегать деградации даже при длительных цепочках рассуждений и действий.

Ключевые факты

  • Выявлен эффект «катастрофического коллапса», при котором производительность агента резко падает из-за ошибок в структуре вызова инструментов.
  • Установлено, что стандартное обучение с подкреплением (RL) без внешнего контроля недостаточно для стабильной работы многошаговых агентных систем.
  • Внедрение дополнительных контролирующих сигналов (supervisory signals) позволяет стабилизировать обучение и повысить надежность вызова функций.
  • Исследование сфокусировано на устранении разрыва между теоретическими возможностями LLM и их практической реализацией в агентных архитектурах.