Исследователи представили метод LogbQuant, который переводит квантование языковых моделей в логарифмическое пространство. В отличие от традиционных подходов с равномерным распределением весов, этот метод эффективнее обрабатывает высокоамплитудные веса с низкой частотой появления. Это позволяет значительно снизить требования к памяти и ускорить инференс моделей на потребительском оборудовании и edge-устройствах без существенной потери точности.
Традиционные методы квантования часто сталкиваются с проблемой неоптимального представления данных, когда веса с большими значениями искажаются при попытке равномерного сжатия. Логарифмическое квантование лучше адаптируется к распределению весов в современных нейросетях, обеспечивая более высокую плотность представления в критически важных диапазонах. Это критически важно для запуска тяжелых моделей на устройствах с ограниченными вычислительными ресурсами.
Применение данного подхода позволяет разработчикам эффективнее упаковывать параметры моделей, сохраняя их производительность на уровне, близком к исходным весам в формате FP16 или BF16. Метод открывает новые возможности для развертывания сложных архитектур в локальных средах, где пропускная способность памяти и её объем являются главными узкими местами.
Ключевые факты
- Метод LogbQuant использует логарифмическое пространство для более точного представления весов с высокой амплитудой.
- Технология направлена на снижение потребления памяти и ускорение инференса на edge-устройствах.
- Подход решает проблему неоптимальности равномерных кодовых книг, характерную для стандартных методов квантования.
- Исследование опубликовано на платформе arXiv под номером 2607.01127v1.