arXiv · 25.06.2026 ·Оркестрация агентов

Новый метод обучения GUI-агентов через автономное исследование опыта

Исследователи представили метод повышения эффективности мультимодальных веб-агентов при выполнении сложных задач в графических интерфейсах. Подход базируется на автономном исследовании среды и использовании ретроспективного анализа накопленного опыта. Это позволяет компактным open-source моделям значительно улучшить навыки планирования и обобщения действий на различных сайтах, не уступая в качестве работы проприетарным крупным языковым моделям.

Основная проблема существующих решений заключается в слабом планировании и низкой способности агентов адаптироваться к новым веб-ресурсам. Использование коммерческих моделей часто ограничено вопросами приватности и высокими затратами на инференс. Предложенная методика позволяет агентам самостоятельно извлекать полезные стратегии из прошлых попыток, превращая их в структурированные планы действий для достижения целей в интерфейсах.

Технология фокусируется на декомпозиции сложных пользовательских запросов на последовательность атомарных действий. Благодаря механизму Hindsight Experience Utilization, агент анализирует успешные и неудачные траектории взаимодействия с элементами GUI, что повышает точность выполнения многошаговых сценариев. Это делает локальные модели более конкурентоспособными в задачах автоматизации рутинных процессов в браузере.

Ключевые факты

Метод направлен на улучшение планирования у компактных open-source MLLM для работы с GUI.
Внедрена система автономного исследования среды для накопления опыта без участия человека.
Механизм Hindsight Experience Utilization позволяет агенту обучаться на собственных ошибках и успехах.
Решение повышает кросс-сайтовую обобщающую способность агентов при выполнении сложных задач.
Подход снижает зависимость от дорогостоящих коммерческих API, сохраняя при этом высокую точность выполнения действий.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Оркестрация агентов Новый метод обучения агентов для работы с графическими интерфейсами Исследователи представили подход к обучению агентов (Computer-Use Agents), способных выполнять задачи в графических интерфейсах через подкрепляющее обучение. Основная проблема — отсутствие масштабируемых сигналов вознаграждения в десктопных средах — решена с помощью системы автономной оценки. Это позволяет агентам обучаться достижению целей, опираясь на визуальное подтверждение успеха без необходимости ручной разметки данных или создания сложных функций вознаграждения. Hacker News · Инфраструктура для агентов Практический опыт разработки ИИ-агентов для автоматизации браузерных задач Разработка автономных агентов требует перехода от простых цепочек промптов к сложным системам управления состоянием и обработки ошибок. Основная сложность заключается в обеспечении надежности действий модели в реальной среде, где интерфейсы веб-сайтов постоянно меняются, а сетевые задержки могут привести к сбоям в выполнении последовательных команд. Hugging Face - Blog · Оценка и бенчмарки Новый подход к оценке агентных способностей открытых моделей Hugging Face представила методологию для оценки того, насколько эффективно языковые модели справляются с использованием внешних инструментов. В отличие от стандартных тестов на логику или знание фактов, новый подход фокусируется на способности модели вызывать функции, интерпретировать ответы API и корректировать свои действия в рамках многошаговых задач. Это позволяет разработчикам точнее определять, какая модель лучше подходит для создания автономных агентов. arXiv · Машинное обучение WinDOM: новый метод дистилляции для компактных GUI-агентов Исследователи представили WinDOM — метод самодистилляции для обучения компактных моделей (около 2 млрд параметров), предназначенных для навигации по графическим интерфейсам (GUI). Подход решает проблему нехватки размеченных данных и оптимизирует процесс дообучения, позволяя небольшим моделям достигать высокой точности в задачах взаимодействия с элементами интерфейса без привлечения дорогостоящей ручной разметки. Hacker News · Инфраструктура для агентов Опыт разработки самообучающегося агента для написания кода Инженеры ngrok представили результаты работы над автономным агентом, способным к итеративному самосовершенствованию в процессе написания программного кода. Система построена на цикле обратной связи, где агент анализирует собственные ошибки, корректирует стратегию выполнения задач и обновляет базу знаний для будущих итераций. Основной упор сделан на автоматизацию процесса отладки: вместо прямой генерации кода агент сначала оценивает контекст, проверяет гипотезы и только после этого приступает к реализации. Hacker News · Инфраструктура для агентов Агентный веб в оболочке: новый подход к взаимодействию Разработчики предлагают новый подход к взаимодействию с веб-приложениями через оболочку, отказываясь от традиционных селекторов и скриншотов. В центре концепции — агентный подход, где взаимодействие с вебом происходит через команды в терминале, а не через графический интерфейс. Это может значительно упростить интеграцию веб-сервисов в ИИ-агентов, так как не требует сложной обработки визуальных данных. arXiv · Инфраструктура для агентов Переосмысление архитектуры интернета для работы ИИ-агентов Современная архитектура интернета на протяжении тридцати лет проектировалась исключительно под человеческое восприятие. Весь стек технологий, от моделей доступа до экономики внимания и форматов представления контента, оптимизирован для пользователей-людей. Появление автономных ИИ-агентов, выступающих посредниками между человеком и цифровой средой, делает эту парадигму устаревшей, создавая барьеры для эффективной автоматизации и взаимодействия систем. arXiv · Машинное обучение Мультиагентные системы для многокритериальной оптимизации в динамических средах Исследователи представили новый подход к решению задач оптимизации в вычислительных и сетевых системах с помощью мультиагентных систем. Традиционные методы обучения с подкреплением часто сводят сложные задачи к минимизации единого скалярного вознаграждения, используя штрафные коэффициенты для учета ограничений. Однако такой подход оказывается недостаточно гибким в динамических условиях, где требования к производительности и затратам постоянно меняются. arXiv · Оркестрация агентов Совместное обучение правил и политик для ИИ-агентов Исследователи представили новый подход к обучению ИИ-агентов, объединяющий извлечение эмпирических правил и обновление параметров модели. Метод позволяет агентам эффективно использовать накопленный опыт в многошаговых средах, преодолевая разрыв между интерпретируемыми текстовыми правилами и глубокой настройкой весов, что повышает адаптивность и результативность принятия решений в сложных интерактивных задачах. arXiv · Исследования и наука EurekAgent: как ИИ-агенты автоматизируют научные открытия Исследователи из MIT и других ведущих университетов представили EurekAgent — фреймворк, который демонстрирует, как LLM-основанные агенты могут автоматизировать научные открытия. В статье, опубликованной на arXiv, авторы показывают, что при наличии оптимизируемого метрика и подходящей среды выполнения, агенты способны предлагать, проверять и итерировать научные решения, превосходя человеческие подходы.

← Все материалы