Hacker News · 18.06.2026 ·Инфраструктура для агентов

Perplexity открыла исходный код библиотеки Bumblebee для работы с данными

Компания Perplexity опубликовала исходный код Bumblebee — инструментария, предназначенного для эффективного извлечения и обработки данных из веб-страниц. Решение ориентировано на подготовку качественных датасетов, которые необходимы для обучения больших языковых моделей и работы поисковых систем. Библиотека автоматизирует процесс очистки контента, позволяя преобразовывать неструктурированный веб-трафик в форматы, пригодные для машинного обучения.

Основная задача Bumblebee заключается в решении проблемы «шумных» данных, с которой сталкиваются разработчики при парсинге интернета. Инструмент позволяет выделять полезный текстовый контент, игнорируя рекламные блоки, навигационные элементы и другие второстепенные компоненты страниц. Это значительно ускоряет пайплайны подготовки данных и повышает точность ответов моделей, работающих в режиме RAG (Retrieval-Augmented Generation).

Открытие кода Bumblebee дает возможность инженерам использовать готовые решения для масштабируемого сбора данных без необходимости разработки собственных систем фильтрации с нуля. Библиотека поддерживает интеграцию с современными инфраструктурами обработки данных, что делает её важным компонентом для создания агентных систем, требующих актуальной и структурированной информации из внешних источников в реальном времени.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Инфраструктура для агентов Pi Exa: интеграция веб-поиска и глубокого анализа для кодинг-агентов Pi Exa представляет собой специализированный инструмент для расширения возможностей кодинг-агентов через интеграцию актуальных данных из интернета. Решение позволяет агентам выполнять веб-поиск и проводить глубокий анализ найденных материалов, что критически важно для работы с современными библиотеками, документацией и актуальными API, которые постоянно обновляются и требуют оперативного доступа к внешним источникам информации. Hacker News · Инфраструктура для агентов PixelPi: оптимизация контекста для браузерных ИИ-агентов Библиотека PixelPi предлагает новый подход к обработке веб-страниц для ИИ-агентов, радикально сокращая потребление токенов. Вместо передачи в модель полного HTML-кода, который часто достигает 180 тысяч токенов, инструмент извлекает только визуально значимые элементы. Это позволяет сжать контекст до 2 тысяч токенов, сохраняя при этом семантическую структуру страницы для корректной работы LLM. Hacker News · Инфраструктура для агентов Agent-Browser: инструмент для автоматизации действий ИИ в браузере Agent-Browser — это специализированная библиотека, позволяющая ИИ-агентам полноценно взаимодействовать с веб-интерфейсами. Инструмент предоставляет агентам возможность выполнять клики, вводить текст, прокручивать страницы и извлекать данные, имитируя поведение реального пользователя. Решение ориентировано на создание надежных сценариев автоматизации, где требуется работа с динамическим контентом и сложными формами в браузере. Hacker News · Оценка и бенчмарки Reap: автоматизированный подход к созданию бенчмарков для кодинг-агентов Исследователи представили Reap — фреймворк для автоматизированного формирования наборов данных, предназначенных для оценки возможностей ИИ-агентов в написании кода. Система решает проблему устаревания статических бенчмарков, динамически извлекая актуальные задачи из репозиториев с открытым исходным кодом. Это позволяет более точно измерять способность моделей решать реальные инженерные задачи, а не просто заучивать ответы из обучающей выборки. Hacker News · Машинное обучение Оптимизация обработки видеоданных для обучения роботов: ускорение в 15 раз Команда Eventual оптимизировала процесс чтения видеоданных для библиотеки LeRobot, добившись 15-кратного прироста производительности. Основным узким местом была медленная декомпрессия кадров при подготовке датасетов для обучения моделей управления роботами. Инженеры переработали пайплайн обработки, внедрив более эффективные методы декодирования и кэширования, что позволило значительно сократить время подготовки данных для обучения нейросетей. Hacker News · Инфраструктура для агентов Оптимизация веб-поиска для локальных LLM без перерасхода контекстного окна Разработан метод эффективного подключения веб-поиска к локальным языковым моделям, позволяющий минимизировать потребление токенов. Вместо передачи полного содержимого веб-страниц в контекстное окно, решение использует специализированные инструменты для извлечения релевантных фрагментов данных. Это позволяет компактным моделям выполнять поисковые задачи, сохраняя производительность и избегая ограничений контекста, характерных для работы с объемным контентом в реальном времени. Hacker News · Инфраструктура для агентов Agentbrowse: инструмент для управления браузером из терминала Agentbrowse представляет собой библиотеку, предназначенную для интеграции возможностей веб-браузера в рабочие процессы ИИ-агентов. Инструмент позволяет автоматизировать взаимодействие с веб-сайтами непосредственно через интерфейс командной строки, что упрощает выполнение задач, требующих навигации по сети, извлечения данных или тестирования интерфейсов. arXiv · Исследования и наука BrainPilot: агентная система для автоматизации нейробиологических исследований Исследователи представили BrainPilot — специализированную агентную систему, предназначенную для автоматизации полного цикла нейробиологических изысканий. Инструмент объединяет поиск литературы, выполнение вычислительного анализа данных и интерпретацию результатов, преодолевая ограничения универсальных LLM в узкоспециализированных научных задачах. Система демонстрирует способность к автономному планированию многоэтапных экспериментов, интегрируя разрозненные мультимодальные данные для проверки сложных гипотез. MarkTechPost · Память и RAG Perplexity представила систему самообучающейся памяти Brain для ИИ-агентов Компания Perplexity запустила систему Brain, предназначенную для улучшения долгосрочной памяти своих компьютерных агентов. В отличие от стандартных решений, которые фокусируются на предпочтениях пользователя, новая технология отслеживает историю действий самого агента. Система фиксирует успешные стратегии, допущенные ошибки и внесенные исправления, формируя детализированный граф контекста для каждой задачи. Generative AI in Search Marketing: News & Expert Guides · ИИ в маркетинге Как Perplexity отбирает источники для ответов: анализ процесса Анализ потока данных Perplexity показывает, что система не полагается на статичные базы, а в реальном времени сканирует веб для каждого запроса. Алгоритм приоритизирует актуальность и релевантность контента, активно интегрируя видеоматериалы и локальные данные. Понимание этого процесса позволяет маркетологам оптимизировать контент для лучшей индексации и попадания в цитируемые источники поисковых ИИ-систем.

← Все материалы