Компания Opera выпустила специализированный CLI-инструмент для работы с браузерными агентами, который позволяет генерировать компактные снимки доступности (accessibility snapshots) веб-страниц. Решение сокращает объем данных, передаваемых в LLM, на 36%, что напрямую влияет на скорость инференса и стоимость токенов при автоматизации взаимодействия с веб-интерфейсами.

Основная проблема при создании браузерных агентов заключается в избыточности DOM-дерева, которое содержит много «шума», не несущего полезной информации для модели. Новый инструмент фильтрует структуру страницы, оставляя только семантически значимые элементы, необходимые для навигации и выполнения действий. Это позволяет агентам быстрее «понимать» контекст страницы и совершать меньше ошибок при кликах или заполнении форм.

Оптимизация снимков доступности критически важна для снижения задержек в агентных системах, работающих в режиме реального времени. Уменьшение веса контекста позволяет эффективнее использовать лимиты контекстного окна моделей и снижает расходы на API при масштабировании агентных решений на тысячи страниц.

Ключевые факты

  • Инструмент обеспечивает сокращение размера снимков доступности на 36%.
  • Решение ориентировано на оптимизацию входных данных для LLM в агентных сценариях.
  • CLI фокусируется на фильтрации DOM-структуры для выделения только интерактивных и семантически важных элементов.
  • Разработка направлена на снижение стоимости токенов и ускорение отклика браузерных агентов.