Компания mixedbread представила метод асимметричного квантования, позволяющий сократить объем памяти для хранения векторных эмбеддингов на 97% при сохранении точности поиска. Технология оптимизирует хранение индексов, минимизируя потери данных, что критически важно для масштабируемых RAG-систем и высокопроизводительных поисковых движков, работающих с миллиардами векторов в оперативной памяти.

Традиционные методы квантования часто приводят к существенной деградации качества поиска из-за упрощения векторных представлений. Новый подход разделяет процесс квантования запросов и документов, используя разные стратегии для каждого типа данных. Это позволяет сохранять высокую точность сопоставления даже при экстремальном сжатии, что делает возможным запуск масштабных векторных баз данных на обычном железе без потери релевантности выдачи.

Реализация метода ориентирована на интеграцию в существующие пайплайны обработки данных. Снижение требований к объему RAM позволяет размещать значительно большие индексы в памяти, ускоряя время отклика системы и снижая затраты на инфраструктуру. Метод демонстрирует эффективность на стандартных бенчмарках, подтверждая применимость в реальных задачах семантического поиска.

Ключевые факты

  • Сжатие векторных данных достигает 97% от исходного объема.
  • Метод минимизирует потери точности (near-lossless) при поиске по сравнению с полноразмерными векторами.
  • Технология позволяет радикально снизить затраты на оперативную память в векторных БД.
  • Подход основан на асимметричном квантовании, где запросы и документы обрабатываются по разным алгоритмам.
  • Решение оптимизировано для высоконагруженных систем RAG и семантического поиска.