Разработчики представили подход к управлению кодинг-агентами, заменяющий анализ визуальных скриншотов интерфейса на передачу структурированных данных в формате JSON. Этот метод позволяет значительно снизить потребление токенов и повысить точность выполнения задач, так как модель получает прямой доступ к иерархии DOM-элементов и их атрибутам, исключая ошибки интерпретации визуальных данных нейросетью.

Традиционный подход, основанный на компьютерном зрении, часто страдает от проблем с масштабированием, низкой детализацией мелких элементов интерфейса и высокой стоимостью инференса при обработке изображений. Использование JSON-представления позволяет агенту «видеть» структуру страницы как дерево объектов, что упрощает навигацию и взаимодействие с интерактивными элементами веб-приложений.

Такой способ передачи контекста делает агентные системы более предсказуемыми и быстрыми. Вместо того чтобы тратить вычислительные ресурсы на распознавание пикселей, агент оперирует семантически значимыми данными, что критически важно для автоматизации сложных рабочих процессов в браузере и разработки программного обеспечения.

Ключевые факты

  • Переход на JSON-структуры вместо скриншотов сокращает количество потребляемых токенов при обработке интерфейсов.
  • Метод основан на извлечении DOM-дерева страницы, что обеспечивает агенту точные координаты и свойства элементов.
  • Использование структурированных данных снижает вероятность галлюцинаций модели при поиске кнопок, полей ввода и других интерактивных компонентов.
  • Подход позволяет агентам эффективнее обрабатывать динамические веб-интерфейсы, где визуальное отображение может меняться, а логическая структура остается стабильной.