Представлен проект Polyvia, ориентированный на работу с крупными базами неструктурированных данных. Система позволяет выполнять мультимодальный поиск по архивам, насчитывающим более 100 тысяч файлов. Инструмент предназначен для извлечения информации из документов различных форматов, объединяя текстовые и визуальные данные в единый индекс для последующих запросов.
Архитектура решения сфокусирована на масштабируемости при обработке больших объемов корпоративной документации. В отличие от стандартных RAG-систем, ориентированных на текстовые фрагменты, Polyvia использует подходы, позволяющие учитывать контекст и структуру файлов, что критично при поиске в смешанных массивах данных. Это упрощает навигацию по технической документации, отчетам и архивам, где информация распределена между текстом, таблицами и графическими элементами.
Проект предоставляет готовые пайплайны для индексации и семантического поиска, снижая порог входа для внедрения продвинутых систем поиска в бизнес-процессы. Использование подобных инструментов позволяет компаниям автоматизировать работу с накопленными знаниями, сокращая время на поиск данных в распределенных хранилищах и повышая точность ответов при использовании генеративных моделей в корпоративной среде.