Компания Perplexity опубликовала исходный код Bumblebee — инструментария, предназначенного для эффективного извлечения и обработки данных из веб-страниц. Решение ориентировано на подготовку качественных датасетов, которые необходимы для обучения больших языковых моделей и работы поисковых систем. Библиотека автоматизирует процесс очистки контента, позволяя преобразовывать неструктурированный веб-трафик в форматы, пригодные для машинного обучения.

Основная задача Bumblebee заключается в решении проблемы «шумных» данных, с которой сталкиваются разработчики при парсинге интернета. Инструмент позволяет выделять полезный текстовый контент, игнорируя рекламные блоки, навигационные элементы и другие второстепенные компоненты страниц. Это значительно ускоряет пайплайны подготовки данных и повышает точность ответов моделей, работающих в режиме RAG (Retrieval-Augmented Generation).

Открытие кода Bumblebee дает возможность инженерам использовать готовые решения для масштабируемого сбора данных без необходимости разработки собственных систем фильтрации с нуля. Библиотека поддерживает интеграцию с современными инфраструктурами обработки данных, что делает её важным компонентом для создания агентных систем, требующих актуальной и структурированной информации из внешних источников в реальном времени.