Alibaba выпустила Page-Agent — специализированный фреймворк для создания ИИ-агентов, способных взаимодействовать с элементами веб-страниц как человек. Инструмент позволяет автоматизировать сложные сценарии навигации и манипуляции интерфейсом, преобразуя визуальные данные сайта в структурированные команды для LLM. Это решение упрощает интеграцию агентных систем в существующие веб-приложения без необходимости глубокой модификации исходного кода фронтенда.
Система решает одну из главных проблем агентных вычислений — надежное распознавание и взаимодействие с динамическими элементами DOM. Page-Agent анализирует структуру страницы и предоставляет модели контекст, необходимый для выполнения кликов, ввода текста и навигации по сложным формам. Такой подход позволяет создавать автономных помощников, способных выполнять многошаговые задачи в браузере, от заполнения данных до тестирования пользовательских путей.
Технология ориентирована на разработчиков, создающих агентные системы для автоматизации бизнес-процессов, где требуется прямое управление веб-интерфейсами. Фреймворк минимизирует ошибки при работе с нестандартными элементами управления и повышает точность выполнения команд в реальных условиях эксплуатации веб-сервисов.
Ключевые факты
- Разработчик: Alibaba Group.
- Назначение: автономное управление элементами веб-интерфейса (GUI) с помощью LLM.
- Основной функционал: парсинг структуры страницы и выполнение действий (клик, ввод, скролл).
- Доступность: проект опубликован в открытом доступе на платформе GitHub.
- Целевая аудитория: инженеры, занимающиеся разработкой агентных систем и автоматизацией тестирования.