Разработчики представили PixelPi — легковесный фреймворк для создания ИИ-агентов, взаимодействующих с веб-интерфейсами через дерево доступности (accessibility tree). В отличие от решений, полагающихся на компьютерное зрение, этот подход позволяет агенту напрямую считывать структуру DOM и семантические элементы страницы, что значительно повышает точность навигации и выполнения действий в браузере при минимальных вычислительных затратах.
Использование дерева доступности вместо анализа скриншотов решает проблему «галлюцинаций» элементов интерфейса и снижает задержки, характерные для мультимодальных моделей. Инструмент предоставляет унифицированный API для управления состоянием браузера, позволяя агентам кликать по кнопкам, заполнять формы и извлекать данные, опираясь на четкую иерархию объектов, которую браузеры формируют для программ чтения с экрана.
Такой метод интеграции упрощает создание автономных помощников, способных работать в сложных корпоративных системах или веб-приложениях, где визуальный интерфейс часто меняется. Проект ориентирован на разработчиков, которым требуется надежная и предсказуемая автоматизация без необходимости развертывания тяжелых моделей для распознавания визуальных образов.
Ключевые факты
- PixelPi использует дерево доступности для прямого взаимодействия с элементами веб-страниц.
- Отказ от компьютерного зрения снижает требования к ресурсам и повышает точность действий агента.
- Инструмент предоставляет API для автоматизации навигации, ввода текста и обработки данных в браузере.
- Проект доступен в виде открытого исходного кода для интеграции в агентные системы.