Исследователи представили новый метод StepGuard для улучшения веб-навигации ИИ-агентов. Текущие подходы, использующие визуально-языковые модели и обучение с подкреплением, страдают от хрупкости на отдельных шагах из-за несоответствия вознаграждений и накопления ошибок.

Новый метод, Dynamic Dual-Policy Optimization (DDPO), решает проблему переплетения вознаграждений. Он разделяет обучение на два этапа: сначала модель обучается на простых задачах, а затем на более сложных. Это позволяет избежать накопления ошибок и улучшает точность выполнения задач.

StepGuard демонстрирует значительное улучшение по сравнению с базовыми методами, особенно в задачах, требующих последовательных действий. Исследование показывает, что новый подход может быть полезен для создания более надёжных и точных веб-агентов.

Работа опубликована на arXiv и доступна для дальнейшего изучения.