Alibaba разработала Page Agent — клиентский JavaScript-инструмент, позволяющий ИИ-агентам взаимодействовать с веб-страницами напрямую через DOM-структуру. В отличие от мультимодальных решений, работающих со скриншотами, этот агент анализирует текстовое представление DOM, что значительно упрощает интеграцию, исключает необходимость в тяжелых визуальных моделях и позволяет управлять интерфейсами с помощью простых текстовых команд на естественном языке.

Технология функционирует непосредственно внутри браузера, что устраняет потребность в сложных бэкенд-инфраструктурах или переписывании кода существующих веб-сервисов. Агент интерпретирует структуру страницы как текстовый поток, идентифицируя интерактивные элементы, такие как кнопки, поля ввода и ссылки, и выполняя действия на основе пользовательских запросов. Такой подход обеспечивает высокую скорость отклика и точность выполнения операций, так как агент работает с исходной разметкой страницы, а не с её визуальным отображением.

Решение ориентировано на автоматизацию рутинных задач в веб-интерфейсах, где требуется точное взаимодействие с элементами управления. Отказ от обработки изображений снижает вычислительную нагрузку и требования к пропускной способности, делая инструмент эффективным для встраивания в агентные системы, работающие в реальном времени. Page Agent открывает новые возможности для создания автономных помощников, способных заполнять формы, совершать покупки или навигировать по сложным корпоративным дашбордам без участия человека.

Ключевые факты

  • Page Agent работает как клиентский JavaScript-код, внедряемый непосредственно в веб-страницу.
  • Взаимодействие с интерфейсом происходит через анализ текстовой структуры DOM, а не через компьютерное зрение.
  • Система поддерживает выполнение действий (клики, ввод текста) на основе команд на естественном языке.
  • Технология не требует изменений на стороне бэкенда или использования мультимодальных моделей для распознавания элементов.