Hacker News · 03.07.2026 ·Данные и инжиниринг

Manticore Search ускорила генерацию эмбеддингов в 14 раз через оптимизацию ONNX

Команда Manticore Search представила результаты оптимизации своего поискового движка, добившись 14-кратного ускорения процесса генерации векторных эмбеддингов. Переработка пути обработки данных через ONNX Runtime позволила значительно снизить накладные расходы при выполнении инференса моделей внутри системы, что критически важно для высоконагруженных RAG-систем и векторного поиска в реальном времени.

Основная проблема заключалась в неэффективном взаимодействии между движком и библиотеками для работы с нейросетями. Разработчики отказались от стандартных подходов в пользу более глубокой интеграции с ONNX, что позволило минимизировать копирование данных между памятью и ускорить выполнение операций матричного умножения. Это обновление направлено на устранение узких мест при обработке больших объемов текстовых данных, которые требуют векторизации «на лету».

Данное улучшение позволяет значительно сократить задержки при индексации и выполнении семантических запросов. Теперь пользователи могут использовать более тяжелые и точные модели для создания векторов без существенной потери производительности, что делает Manticore более конкурентоспособным решением для задач, где требуется сочетание классического полнотекстового поиска и векторного поиска на базе LLM.

Ключевые факты

Ускорение генерации эмбеддингов достигло 14 раз по сравнению с предыдущей реализацией.
Оптимизация достигнута за счет переработки пути обработки через ONNX Runtime внутри движка.
Устранение избыточного копирования данных позволило снизить нагрузку на CPU при инференсе.
Обновление ориентировано на повышение эффективности RAG-пайплайнов и векторного поиска в реальном времени.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Данные и инжиниринг Обновление Manticore Search 27.1.5: новые возможности для векторного поиска Вышел релиз поискового движка Manticore Search версии 27.1.5, сфокусированный на улучшении производительности векторного поиска и расширении инструментов для работы с данными. Ключевым нововведением стала оптимизация алгоритмов поиска ближайших соседей (ANN), что позволило значительно ускорить обработку векторных запросов. Разработчики также добавили встроенную поддержку диалоговых сценариев, упрощающих интеграцию с языковыми моделями для создания RAG-систем. Hacker News · Данные и инжиниринг Обновление Manticore Search 27.1.5: векторный поиск и шардирование Вышла новая версия поискового движка Manticore Search 27.1.5, ориентированная на повышение производительности при работе с векторными данными. Разработчики оптимизировали алгоритмы поиска, что позволило ускорить обработку запросов в задачах семантического поиска. Обновление также включает встроенную поддержку шардирования, упрощающую масштабирование индексов на распределенные системы. Hacker News · Инференс и железо Ускорение инференса LLM на GPU AMD через оптимизацию GEMM AMD представила новые методы оптимизации операций матричного умножения (GEMM) для своих графических процессоров, направленные на снижение задержек при работе с большими языковыми моделями. Обновления в программном стеке ROCm позволяют значительно повысить производительность инференса, обеспечивая более эффективную обработку запросов в реальном времени и оптимизируя использование вычислительных ресурсов архитектуры CDNA. Hacker News · Инференс и железо DeepSeek представила методы оптимизации инференса с ускорением до 85% Компания DeepSeek опубликовала техническую документацию по методам оптимизации инференса, позволяющим ускорить генерацию текста на 60–85%. Разработка фокусируется на снижении задержек при работе с большими языковыми моделями за счет эффективного управления вычислительными ресурсами и оптимизации алгоритмов обработки токенов, что критически важно для масштабируемых агентных систем и высоконагруженных сервисов. Hacker News · Инференс и железо Новый компилятор для Edge AI превосходит решения от Google и вендоров Компания DeepGate представила специализированный компилятор, предназначенный для оптимизации нейросетевых моделей при запуске на периферийных устройствах (Edge AI). Инструмент ориентирован на повышение производительности инференса и снижение энергопотребления, что является критическим фактором для работы ИИ вне облачных дата-центров. Разработчики заявляют, что их решение демонстрирует более высокую эффективность по сравнению с популярными стандартными инструментариями, включая проприетарные стеки от производителей аппаратного обеспечения и открытые решения от Google. NVIDIA Technical Blog · Модели и релизы Как NVIDIA ускорила обучение MoE-моделей на 30% NVIDIA представила новые методы оптимизации обучения Mixture-of-Experts (MoE) моделей, которые стали ключевым компонентом современных ИИ-систем. Исследователи компании разработали продвинутые ядра слияния (fusion kernels), которые позволяют значительно ускорить процесс обучения. arXiv · Машинное обучение Posterior Refinement: новый метод ускорения генерации текста в неавторегрессионных моделях Исследователи представили метод Posterior Refinement, решающий проблему низкой эффективности неавторегрессионных языковых моделей. Новый подход использует Any-Order Flow Maps для итеративного уточнения текста, позволяя моделям критиковать и перегенерировать произвольные фрагменты токенов одновременно. Это устраняет ошибки факторизации, характерные для маскированных диффузионных моделей, и значительно повышает качество генерации при сохранении высокой скорости работы. Hacker News · Память и RAG Новый метод RAG от Emory и IBM повышает точность до 97% при снижении затрат токенов Исследователи из Университета Эмори и IBM представили метод управляемого поиска (Governed AI retrieval), который значительно оптимизирует работу RAG-систем. Технология позволяет достичь 97% точности ответов, сокращая при этом расход токенов на 67%. Подход фокусируется на строгом контроле контекста, что минимизирует галлюцинации и повышает эффективность обработки данных в корпоративных ИИ-решениях. Hacker News · Данные и инжиниринг Асимметричное квантование для эффективного векторного поиска Компания mixedbread представила метод асимметричного квантования, позволяющий сократить объем памяти для хранения векторных эмбеддингов на 97% при сохранении точности поиска. Технология оптимизирует хранение индексов, минимизируя потери данных, что критически важно для масштабируемых RAG-систем и высокопроизводительных поисковых движков, работающих с миллиардами векторов в оперативной памяти. arXiv · Машинное обучение Оптимизация инференса LLM через адаптивную глубину декодирования Исследователи представили метод Depth Exploration, оптимизирующий процесс генерации токенов в авторегрессионных моделях. Вместо прогона каждого токена через все слои нейросети, система динамически определяет глубину вычислений, необходимую для уверенного предсказания. Это позволяет существенно сократить вычислительные затраты при сохранении точности, так как многие токены становятся предсказуемыми на промежуточных этапах обработки данных внутри архитектуры модели.

← Все материалы