Разработчики представили инструмент, позволяющий ИИ-агентам взаимодействовать с графическим интерфейсом обычных десктопных приложений. Система берет на себя управление мышью и клавиатурой, выполняя действия непосредственно в операционной системе. Это позволяет автоматизировать рутинные задачи, которые ранее требовали участия человека, такие как заполнение форм, перенос данных между программами или навигация по сложным меню.

Технология работает как связующее звено между языковой моделью и визуальным интерфейсом компьютера. Агент анализирует скриншоты экрана, распознает элементы управления и планирует последовательность кликов или нажатий клавиш для достижения поставленной цели. Такой подход избавляет от необходимости использовать API для каждого отдельного приложения, так как система имитирует действия пользователя в привычной среде.

Подобные решения расширяют возможности агентных систем, позволяя им выходить за рамки браузерных сценариев и работать с локальным софтом. Это открывает новые перспективы для интеграции ИИ в рабочие процессы, где автоматизация была затруднена из-за отсутствия программных интерфейсов или закрытости используемого ПО.