Исследователи представили метод повышения эффективности мультимодальных веб-агентов при выполнении сложных задач в графических интерфейсах. Подход базируется на автономном исследовании среды и использовании ретроспективного анализа накопленного опыта. Это позволяет компактным open-source моделям значительно улучшить навыки планирования и обобщения действий на различных сайтах, не уступая в качестве работы проприетарным крупным языковым моделям.
Основная проблема существующих решений заключается в слабом планировании и низкой способности агентов адаптироваться к новым веб-ресурсам. Использование коммерческих моделей часто ограничено вопросами приватности и высокими затратами на инференс. Предложенная методика позволяет агентам самостоятельно извлекать полезные стратегии из прошлых попыток, превращая их в структурированные планы действий для достижения целей в интерфейсах.
Технология фокусируется на декомпозиции сложных пользовательских запросов на последовательность атомарных действий. Благодаря механизму Hindsight Experience Utilization, агент анализирует успешные и неудачные траектории взаимодействия с элементами GUI, что повышает точность выполнения многошаговых сценариев. Это делает локальные модели более конкурентоспособными в задачах автоматизации рутинных процессов в браузере.
Ключевые факты
- Метод направлен на улучшение планирования у компактных open-source MLLM для работы с GUI.
- Внедрена система автономного исследования среды для накопления опыта без участия человека.
- Механизм Hindsight Experience Utilization позволяет агенту обучаться на собственных ошибках и успехах.
- Решение повышает кросс-сайтовую обобщающую способность агентов при выполнении сложных задач.
- Подход снижает зависимость от дорогостоящих коммерческих API, сохраняя при этом высокую точность выполнения действий.