Исследователи представили метод TRIAGE, который решает проблему неэффективного распределения кредита (credit assignment) в агентном обучении с подкреплением. В отличие от стандартного алгоритма GRPO, который оценивает только финальный результат, TRIAGE классифицирует действия агента по типам ролей. Это позволяет точнее определять вклад каждого шага — от навигации до редактирования — в итоговый успех, избегая наказания за полезные исследовательские действия.

Традиционные подходы в агентном обучении часто используют единый сигнал вознаграждения для всей последовательности действий, основываясь на вердикте верификатора. Такой подход приводит к тому, что модель не может отличить удачные промежуточные шаги от избыточных или ошибочных, если финальный результат оказался неудачным. TRIAGE вводит механизм ролевой типизации, который анализирует семантику действий, позволяя алгоритму обучения лучше понимать, какие именно операции привели к прогрессу.

Внедрение этого метода позволяет значительно повысить эффективность обучения агентов в сложных средах, где требуется выполнение множества разнородных команд. Разделение ответственности между поисковыми запросами, кликами и манипуляциями с объектами делает процесс обучения более стабильным и ускоряет сходимость моделей в задачах, требующих многошагового планирования и взаимодействия с внешними интерфейсами.

Ключевые факты

  • Метод TRIAGE заменяет унифицированный сигнал преимущества (advantage) в GRPO на ролевую систему оценки действий.
  • Алгоритм классифицирует действия агента на специфические категории: поиск, навигация, редактирование и взаимодействие с объектами.
  • Новый подход предотвращает ошибочное наказание агента за полезные исследовательские действия в неудачных попытках.
  • Метод направлен на решение проблемы структурной неполноты сигналов обратной связи в агентных системах с подкреплением.