Разработчики представили Pollux — языковую модель, использующую метод нативной векторной квантования, который позволяет сжать параметры до рекордных 0,76 бит. Этот подход существенно снижает требования к объему оперативной памяти, сохраняя при этом работоспособность модели, что открывает новые возможности для запуска сложных нейросетей на потребительском оборудовании с ограниченными ресурсами.

Традиционные методы квантования часто приводят к заметной потере качества генерации при попытке достичь экстремально низких значений бит на параметр (bpw). Векторное квантование в Pollux позволяет группировать веса в векторы и сопоставлять их с кодовой книгой, что обеспечивает более эффективное представление данных по сравнению со скалярным квантованием. Это решение ориентировано на оптимизацию инференса и позволяет запускать модели на устройствах, где раньше это было невозможно из-за нехватки VRAM.

Технология опирается на архитектуру, где веса модели не просто округляются, а аппроксимируются через заранее обученные словари векторов. Такой подход позволяет достичь высокой степени сжатия без катастрофического падения точности, что делает модель перспективным инструментом для локального запуска LLM. Проект доступен в виде открытого исходного кода для дальнейшего тестирования и интеграции в существующие пайплайны инференса.

Ключевые факты

  • Уровень сжатия модели составляет 0,76 бит на параметр (bpw).
  • Использован метод нативного векторного квантования вместо стандартного скалярного.
  • Проект опубликован в открытом доступе на GitHub для анализа и доработки.
  • Оптимизация направлена на снижение нагрузки на видеопамять при сохранении функциональности LLM.