arXiv · 30.06.2026 ·Машинное обучение

Метод TRIAGE для точного распределения вознаграждения в агентном обучении

Исследователи представили метод TRIAGE, который решает проблему неэффективного распределения кредита (credit assignment) в агентном обучении с подкреплением. В отличие от стандартного алгоритма GRPO, который оценивает только финальный результат, TRIAGE классифицирует действия агента по типам ролей. Это позволяет точнее определять вклад каждого шага — от навигации до редактирования — в итоговый успех, избегая наказания за полезные исследовательские действия.

Традиционные подходы в агентном обучении часто используют единый сигнал вознаграждения для всей последовательности действий, основываясь на вердикте верификатора. Такой подход приводит к тому, что модель не может отличить удачные промежуточные шаги от избыточных или ошибочных, если финальный результат оказался неудачным. TRIAGE вводит механизм ролевой типизации, который анализирует семантику действий, позволяя алгоритму обучения лучше понимать, какие именно операции привели к прогрессу.

Внедрение этого метода позволяет значительно повысить эффективность обучения агентов в сложных средах, где требуется выполнение множества разнородных команд. Разделение ответственности между поисковыми запросами, кликами и манипуляциями с объектами делает процесс обучения более стабильным и ускоряет сходимость моделей в задачах, требующих многошагового планирования и взаимодействия с внешними интерфейсами.

Ключевые факты

Метод TRIAGE заменяет унифицированный сигнал преимущества (advantage) в GRPO на ролевую систему оценки действий.
Алгоритм классифицирует действия агента на специфические категории: поиск, навигация, редактирование и взаимодействие с объектами.
Новый подход предотвращает ошибочное наказание агента за полезные исследовательские действия в неудачных попытках.
Метод направлен на решение проблемы структурной неполноты сигналов обратной связи в агентных системах с подкреплением.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Оркестрация агентов TACO: новый метод оптимизации использования инструментов ИИ-агентами Исследователи представили метод TACO (Tool-Augmented Credit Optimization), решающий проблему неэффективного использования инструментов мультимодальными агентами. Алгоритм позволяет точнее оценивать вклад каждого вызова кода в итоговый результат, отсеивая избыточные или вводящие в заблуждение операции. Это повышает точность ответов агентов при выполнении сложных визуальных задач, требующих многошагового анализа и программной обработки данных. arXiv · Машинное обучение Новый метод обучения с подкреплением для задач с разреженными наградами Исследователи представили метод Success Visitation Matching, решающий проблему неэффективного обучения моделей в условиях разреженных наград. В стандартных сценариях обучения с подкреплением агент получает сигнал о полезности действия только при достижении конечной цели, что делает процесс поиска оптимальной стратегии крайне медленным и нестабильным. Новый подход позволяет модели лучше распределять кредит за промежуточные действия, опираясь на вероятность посещения состояний, ведущих к успеху. Hacker News · Разработка и инструменты Улучшение ИИ-агентов через траектории в пространстве токенов без дообучения Исследователи представили метод оптимизации поведения ИИ-агентов, основанный на анализе успешных траекторий действий без изменения весов модели. Подход заключается в манипуляции пространством токенов, что позволяет направлять агент к выполнению сложных задач через уточнение контекста и промптов, основываясь на прошлых результатах выполнения, исключая необходимость дорогостоящего дообучения или градиентного спуска. arXiv · Машинное обучение Фреймворк для распределения вознаграждений в кооперативных ИИ-системах Исследователи представили методологию распределения наград в кооперативных ИИ-системах, где агенты действуют от лица пользователей. Новый подход внедряет механизм «ценностно-обусловленной фильтрации градиентов», который позволяет учитывать индивидуальные этические ограничения каждого участника при обновлении глобальных моделей. Это обеспечивает прозрачность вклада данных и гарантирует, что обучение системы соответствует заданным профилям ценностей всех вовлеченных сторон. arXiv · Память и RAG Метод накопления преимуществ для самообучения ИИ-агентов Исследователи представили новый подход к обучению ИИ-агентов, основанный на механизме накопления маржинальных преимуществ (Marginal Advantage Accumulation). Метод решает проблему противоречивой обратной связи, возникающей при пакетной дистилляции траекторий, когда одни и те же операции с памятью получают разные оценки эффективности в разных итерациях обучения. arXiv · Оценка и бенчмарки QVal: новый метод оценки промежуточных действий ИИ-агентов Исследователи представили QVal — метод эффективной оценки промежуточных шагов для ИИ-агентов, работающих на длинных дистанциях. В отличие от традиционных подходов, полагающихся только на итоговый результат, QVal позволяет оценивать качество каждого действия в цепочке, что критически важно для сложных задач, требующих сотен или тысяч последовательных операций, где стандартные методы обучения часто оказываются недостаточно информативными. arXiv · Оркестрация агентов Новый метод обучения агентов для работы с графическими интерфейсами Исследователи представили подход к обучению агентов (Computer-Use Agents), способных выполнять задачи в графических интерфейсах через подкрепляющее обучение. Основная проблема — отсутствие масштабируемых сигналов вознаграждения в десктопных средах — решена с помощью системы автономной оценки. Это позволяет агентам обучаться достижению целей, опираясь на визуальное подтверждение успеха без необходимости ручной разметки данных или создания сложных функций вознаграждения. arXiv · Обучение и дообучение Метод RODS для улучшения обучения агентов с использованием инструментов Исследователи представили метод RODS (Reward-Driven Online Data Synthesis), направленный на повышение эффективности обучения ИИ-агентов, работающих с внешними инструментами в многоходовых сценариях. Основная проблема существующих подходов заключается в быстром истощении полезных обучающих данных в статических наборах, что ограничивает развитие моделей. Новый метод решает эту задачу через динамическую генерацию данных, ориентированную на максимизацию обучающего сигнала. arXiv · Оркестрация агентов Новый метод обучения GUI-агентов через автономное исследование опыта Исследователи представили метод повышения эффективности мультимодальных веб-агентов при выполнении сложных задач в графических интерфейсах. Подход базируется на автономном исследовании среды и использовании ретроспективного анализа накопленного опыта. Это позволяет компактным open-source моделям значительно улучшить навыки планирования и обобщения действий на различных сайтах, не уступая в качестве работы проприетарным крупным языковым моделям. arXiv · Машинное обучение Мультиагентные системы для многокритериальной оптимизации в динамических средах Исследователи представили новый подход к решению задач оптимизации в вычислительных и сетевых системах с помощью мультиагентных систем. Традиционные методы обучения с подкреплением часто сводят сложные задачи к минимизации единого скалярного вознаграждения, используя штрафные коэффициенты для учета ограничений. Однако такой подход оказывается недостаточно гибким в динамических условиях, где требования к производительности и затратам постоянно меняются.

← Все материалы