Разработчики представили PixelPi — легковесный фреймворк для создания ИИ-агентов, взаимодействующих с веб-интерфейсами через дерево доступности (accessibility tree). В отличие от решений, полагающихся на компьютерное зрение, этот подход позволяет агенту напрямую считывать структуру DOM и семантические элементы страницы, что значительно повышает точность навигации и выполнения действий в браузере при минимальных вычислительных затратах.

Использование дерева доступности вместо анализа скриншотов решает проблему «галлюцинаций» элементов интерфейса и снижает задержки, характерные для мультимодальных моделей. Инструмент предоставляет унифицированный API для управления состоянием браузера, позволяя агентам кликать по кнопкам, заполнять формы и извлекать данные, опираясь на четкую иерархию объектов, которую браузеры формируют для программ чтения с экрана.

Такой метод интеграции упрощает создание автономных помощников, способных работать в сложных корпоративных системах или веб-приложениях, где визуальный интерфейс часто меняется. Проект ориентирован на разработчиков, которым требуется надежная и предсказуемая автоматизация без необходимости развертывания тяжелых моделей для распознавания визуальных образов.

Ключевые факты

  • PixelPi использует дерево доступности для прямого взаимодействия с элементами веб-страниц.
  • Отказ от компьютерного зрения снижает требования к ресурсам и повышает точность действий агента.
  • Инструмент предоставляет API для автоматизации навигации, ввода текста и обработки данных в браузере.
  • Проект доступен в виде открытого исходного кода для интеграции в агентные системы.