arXiv · 01.07.2026 ·Инфраструктура для агентов

GSRQ: новый метод сжатия KV-кэша до уровня ниже 1 бита

Исследователи представили метод Gain-Shape Residual Quantization (GSRQ), позволяющий сжимать KV-кэш в больших языковых моделях до значений менее 1 бита на параметр. Технология решает проблему линейного роста потребления памяти при увеличении контекстного окна, сохраняя при этом высокую точность генерации за счет раздельного кодирования амплитуды и формы векторов активаций.

Основная сложность работы с длинным контекстом в LLM заключается в огромном объеме KV-кэша, который быстро заполняет видеопамять графических ускорителей. Традиционные методы векторного квантования часто приводят к значительной потере качества ответов модели. GSRQ оптимизирует этот процесс, используя иерархическое кодирование остатков, что позволяет существенно сократить требования к памяти без критического падения производительности.

Метод демонстрирует эффективность в задачах, требующих обработки больших массивов данных, где стандартные подходы к квантованию оказываются недостаточно гибкими. Благодаря разделению параметров на компоненты усиления (gain) и формы (shape), алгоритм достигает более высокой плотности хранения информации, что критически важно для развертывания моделей с контекстным окном в сотни тысяч токенов на ограниченном аппаратном обеспечении.

Ключевые факты

Метод GSRQ обеспечивает сжатие KV-кэша до уровня ниже 1 бита на параметр.
Технология использует иерархическое квантование остатков для минимизации ошибок аппроксимации.
Разделение на Gain и Shape позволяет точнее передавать структуру векторов активаций при экстремально низком битрейте.
Решение направлено на снижение аппаратных ограничений при работе с длинными контекстными окнами в LLM.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Инфраструктура для агентов UltraQuant: оптимизация KV-кэша до 4 бит для работы с длинным контекстом Исследователи представили метод UltraQuant, направленный на решение проблемы нехватки памяти при работе с длинными контекстами в ИИ-агентах. Основная нагрузка в таких системах ложится на KV-кэш (Key-Value cache), который хранит промежуточные состояния модели. Использование 4-битного квантования позволяет значительно сократить объем занимаемой видеопамяти, сохраняя при этом точность генерации текста. Hacker News · Инфраструктура для агентов VeriCache: метод сжатия KV-кэша без потери точности при инференсе LLM Исследователи представили VeriCache — новый подход к оптимизации KV-кэша, который позволяет сжимать данные без потери качества генерации. Метод решает проблему избыточного потребления памяти при работе с длинными контекстами, сохраняя при этом точность ответов модели на уровне стандартных систем. Это решение значительно снижает требования к видеопамяти при развертывании крупных языковых моделей в продакшене. arXiv · Инфраструктура для агентов Новый метод сжатия KV-кэша для LLM снижает нагрузку на память Исследователи предложили метод AnchorKV для сжатия ключевых значений (KV) в кэше языковых моделей. Это решение направлено на уменьшение нагрузки на память и энергопотребление при инференсе, что особенно актуально для крупных языковых моделей (LLM). MarkTechPost · Инфраструктура для агентов Методы сжатия KV-кэша: обзор подходов TurboQuant, OSCAR и EpiCache При работе с длинным контекстом в современных языковых моделях объем KV-кэша (Key-Value cache) часто превышает размер весов самой модели, создавая критическое узкое место в оперативной памяти. Для решения этой проблемы активно развиваются методы сжатия, среди которых выделяются три ключевых подхода: TurboQuant, OSCAR и EpiCache. Каждый из них предлагает свой способ оптимизации хранения данных, позволяя эффективно обрабатывать массивы токенов без существенной потери точности генерации. Hacker News · Машинное обучение Техники оптимизации LLM: от квантования до эффективного инференса Оптимизация больших языковых моделей становится критическим этапом для снижения затрат и повышения скорости работы ИИ-систем. Основные методы включают квантование весов, использование специализированных форматов данных и оптимизацию алгоритмов внимания. Эти подходы позволяют запускать мощные модели на ограниченном железе, сохраняя при этом высокую точность генерации и минимизируя задержки при обработке запросов в реальном времени. Hacker News · Данные и инжиниринг Асимметричное квантование для эффективного векторного поиска Компания mixedbread представила метод асимметричного квантования, позволяющий сократить объем памяти для хранения векторных эмбеддингов на 97% при сохранении точности поиска. Технология оптимизирует хранение индексов, минимизируя потери данных, что критически важно для масштабируемых RAG-систем и высокопроизводительных поисковых движков, работающих с миллиардами векторов в оперативной памяти. arXiv · Машинное обучение Оптимизация инференса LLM через адаптивную глубину декодирования Исследователи представили метод Depth Exploration, оптимизирующий процесс генерации токенов в авторегрессионных моделях. Вместо прогона каждого токена через все слои нейросети, система динамически определяет глубину вычислений, необходимую для уверенного предсказания. Это позволяет существенно сократить вычислительные затраты при сохранении точности, так как многие токены становятся предсказуемыми на промежуточных этапах обработки данных внутри архитектуры модели. Hacker News · Память и RAG Новый метод компактификации кэша ключ-значение для ИИ-агентов Исследователи представили новый метод компактификации кэша ключ-значение (KV), который может значительно улучшить производительность ИИ-агентов. В статье, опубликованной на arXiv, описывается подход Still, который выполняет компактификацию за один проход, что снижает накладные расходы и ускоряет работу систем с большими объёмами данных. arXiv · Исследования и наука ИИ-модели ускоряют поиск квантовых кодов коррекции ошибок Исследователи применили большие языковые модели для автоматизированного поиска новых квантовых кодов с малой плотностью проверок на четность (qLDPC). Использование LLM позволило эффективно решать сложные дискретные задачи проектирования, которые критически важны для масштабирования квантовых вычислений. Метод структурированной эволюции концепций помог обнаружить коды, превосходящие существующие аналоги по ряду параметров, открывая путь к созданию более надежного квантового оборудования. Hacker News · Модели и релизы SubQ 1.1: линейное масштабирование внимания с 98% точностью Исследователи представили обновлённую версию SubQ 1.1, модели, использующей линейно-масштабируемое разреженное внимание. Новый алгоритм обеспечивает 98% точность извлечения данных при работе с 12 миллионами токенов.

← Все материалы