Исследователи представили метод Gain-Shape Residual Quantization (GSRQ), позволяющий сжимать KV-кэш в больших языковых моделях до значений менее 1 бита на параметр. Технология решает проблему линейного роста потребления памяти при увеличении контекстного окна, сохраняя при этом высокую точность генерации за счет раздельного кодирования амплитуды и формы векторов активаций.
Основная сложность работы с длинным контекстом в LLM заключается в огромном объеме KV-кэша, который быстро заполняет видеопамять графических ускорителей. Традиционные методы векторного квантования часто приводят к значительной потере качества ответов модели. GSRQ оптимизирует этот процесс, используя иерархическое кодирование остатков, что позволяет существенно сократить требования к памяти без критического падения производительности.
Метод демонстрирует эффективность в задачах, требующих обработки больших массивов данных, где стандартные подходы к квантованию оказываются недостаточно гибкими. Благодаря разделению параметров на компоненты усиления (gain) и формы (shape), алгоритм достигает более высокой плотности хранения информации, что критически важно для развертывания моделей с контекстным окном в сотни тысяч токенов на ограниченном аппаратном обеспечении.
Ключевые факты
- Метод GSRQ обеспечивает сжатие KV-кэша до уровня ниже 1 бита на параметр.
- Технология использует иерархическое квантование остатков для минимизации ошибок аппроксимации.
- Разделение на Gain и Shape позволяет точнее передавать структуру векторов активаций при экстремально низком битрейте.
- Решение направлено на снижение аппаратных ограничений при работе с длинными контекстными окнами в LLM.