Исследователи представили подход к обучению агентов (Computer-Use Agents), способных выполнять задачи в графических интерфейсах через подкрепляющее обучение. Основная проблема — отсутствие масштабируемых сигналов вознаграждения в десктопных средах — решена с помощью системы автономной оценки. Это позволяет агентам обучаться достижению целей, опираясь на визуальное подтверждение успеха без необходимости ручной разметки данных или создания сложных функций вознаграждения.
Традиционные методы обучения агентов для работы с ПК сталкивались с барьером «разреженности» наград: системе сложно понять, выполнила ли она действие верно, если интерфейс не предоставляет машиночитаемых откликов. Новый фреймворк автоматизирует этот процесс, используя визуальный анализ для оценки прогресса. Это критически важно для создания автономных помощников, которые взаимодействуют с любым ПО так же, как человек, кликая по кнопкам и заполняя формы.
Метод значительно снижает затраты на подготовку обучающих выборок, так как система сама генерирует сигналы успеха на основе визуального состояния экрана. Такой подход открывает путь к созданию универсальных агентов, способных адаптироваться к новым приложениям без предварительного обучения на специфических API или жестко заданных сценариях взаимодействия.
Ключевые факты
- Агенты обучаются взаимодействию с GUI без использования специализированных API приложений.
- Система автономной оценки заменяет ручное проектирование функций вознаграждения (reward functions).
- Метод решает проблему визуальной интерпретации успеха в неструктурированных десктопных средах.
- Подход повышает масштабируемость обучения агентов для выполнения многошаговых пользовательских задач.