Команда Manticore Search представила результаты оптимизации своего поискового движка, добившись 14-кратного ускорения процесса генерации векторных эмбеддингов. Переработка пути обработки данных через ONNX Runtime позволила значительно снизить накладные расходы при выполнении инференса моделей внутри системы, что критически важно для высоконагруженных RAG-систем и векторного поиска в реальном времени.

Основная проблема заключалась в неэффективном взаимодействии между движком и библиотеками для работы с нейросетями. Разработчики отказались от стандартных подходов в пользу более глубокой интеграции с ONNX, что позволило минимизировать копирование данных между памятью и ускорить выполнение операций матричного умножения. Это обновление направлено на устранение узких мест при обработке больших объемов текстовых данных, которые требуют векторизации «на лету».

Данное улучшение позволяет значительно сократить задержки при индексации и выполнении семантических запросов. Теперь пользователи могут использовать более тяжелые и точные модели для создания векторов без существенной потери производительности, что делает Manticore более конкурентоспособным решением для задач, где требуется сочетание классического полнотекстового поиска и векторного поиска на базе LLM.

Ключевые факты

  • Ускорение генерации эмбеддингов достигло 14 раз по сравнению с предыдущей реализацией.
  • Оптимизация достигнута за счет переработки пути обработки через ONNX Runtime внутри движка.
  • Устранение избыточного копирования данных позволило снизить нагрузку на CPU при инференсе.
  • Обновление ориентировано на повышение эффективности RAG-пайплайнов и векторного поиска в реальном времени.