Библиотека PixelPi предлагает новый подход к обработке веб-страниц для ИИ-агентов, радикально сокращая потребление токенов. Вместо передачи в модель полного HTML-кода, который часто достигает 180 тысяч токенов, инструмент извлекает только визуально значимые элементы. Это позволяет сжать контекст до 2 тысяч токенов, сохраняя при этом семантическую структуру страницы для корректной работы LLM.
Основная проблема современных браузерных агентов заключается в избыточности DOM-дерева. Огромные объемы технической разметки, скриптов и стилей перегружают контекстное окно, увеличивая стоимость инференса и замедляя время отклика. PixelPi решает эту задачу через фильтрацию контента, оставляя только те данные, с которыми агент может взаимодействовать: кнопки, поля ввода, заголовки и основной текст.
Такой подход критически важен для создания масштабируемых агентных систем. Снижение нагрузки на контекстное окно позволяет использовать менее дорогие модели или увеличивать количество параллельных задач без потери качества навигации. Инструмент ориентирован на разработчиков, которые строят автоматизированные системы сбора данных или агентные интерфейсы, требующие высокой скорости обработки страниц в реальном времени.
Ключевые факты
- Сжатие данных страницы происходит с 180 000 до 2 000 токенов.
- Инструмент распространяется как пакет в реестре npm.
- Фокус на извлечении только интерактивных и визуально значимых элементов DOM.
- Снижение объема данных напрямую уменьшает стоимость API-запросов к LLM.
- Решение оптимизировано для повышения производительности браузерных агентов.