arXiv · 18.06.2026 ·Инфраструктура для агентов

UltraQuant: оптимизация KV-кэша до 4 бит для работы с длинным контекстом

Исследователи представили метод UltraQuant, направленный на решение проблемы нехватки памяти при работе с длинными контекстами в ИИ-агентах. Основная нагрузка в таких системах ложится на KV-кэш (Key-Value cache), который хранит промежуточные состояния модели. Использование 4-битного квантования позволяет значительно сократить объем занимаемой видеопамяти, сохраняя при этом точность генерации текста.

В основе подхода лежит комбинация ротационного квантования в стиле TurboQuant и кодовых книг. Авторы сравнивают эффективность этого метода с текущим стандартом FP8, реализованным в библиотеке vLLM. Результаты показывают, что сжатие кэша до 4 бит позволяет обрабатывать более длинные последовательности и повышать плотность запросов на одном графическом ускорителе без существенной деградации качества ответов модели.

Технология ориентирована на системы, где агенты часто обращаются к объемным префиксам и работают в условиях высокой конкуренции запросов. Оптимизация KV-кэша становится критическим фактором для масштабирования агентных систем, так как позволяет эффективнее использовать ресурсы GPU при обслуживании длинных диалоговых сессий и сложных сценариев взаимодействия.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

MarkTechPost · Инфраструктура для агентов Методы сжатия KV-кэша: обзор подходов TurboQuant, OSCAR и EpiCache При работе с длинным контекстом в современных языковых моделях объем KV-кэша (Key-Value cache) часто превышает размер весов самой модели, создавая критическое узкое место в оперативной памяти. Для решения этой проблемы активно развиваются методы сжатия, среди которых выделяются три ключевых подхода: TurboQuant, OSCAR и EpiCache. Каждый из них предлагает свой способ оптимизации хранения данных, позволяя эффективно обрабатывать массивы токенов без существенной потери точности генерации. Hacker News · Инфраструктура для агентов VeriCache: метод сжатия KV-кэша без потери точности при инференсе LLM Исследователи представили VeriCache — новый подход к оптимизации KV-кэша, который позволяет сжимать данные без потери качества генерации. Метод решает проблему избыточного потребления памяти при работе с длинными контекстами, сохраняя при этом точность ответов модели на уровне стандартных систем. Это решение значительно снижает требования к видеопамяти при развертывании крупных языковых моделей в продакшене. Hacker News · Инфраструктура для агентов Почему для работы LLM недостаточно оптимизации весов Современные подходы к квантованию моделей часто фокусируются исключительно на сжатии весов, однако для полноценной работы ИИ-агентов критически важна эффективная работа с контекстом и KV-кэшем. Исследование показывает, что при увеличении длины контекста требования к видеопамяти (VRAM) растут непропорционально, что делает управление памятью ключевым фактором производительности, выходящим за рамки простого уменьшения точности весов. arXiv · Инфраструктура для агентов HiKV: иерархическое сжатие KV-кэша для ускорения работы длинных контекстов в LLM Исследователи представили HiKV — метод аппаратного и алгоритмического ускорения декодирования LLM, решающий проблему нехватки памяти при работе с длинными контекстами. Система использует иерархическую оценку важности токенов для сжатия KV-кэша на двух уровнях, что позволяет значительно снизить требования к видеопамяти и повысить пропускную способность инференса без существенной потери точности генерации. arXiv · Инфраструктура для агентов GSRQ: новый метод сжатия KV-кэша до уровня ниже 1 бита Исследователи представили метод Gain-Shape Residual Quantization (GSRQ), позволяющий сжимать KV-кэш в больших языковых моделях до значений менее 1 бита на параметр. Технология решает проблему линейного роста потребления памяти при увеличении контекстного окна, сохраняя при этом высокую точность генерации за счет раздельного кодирования амплитуды и формы векторов активаций. arXiv · Инфраструктура для агентов Kamera: оптимизация KV-кэша для мультимодальных агентов Исследователи представили метод Kamera, решающий проблему избыточных вычислений при работе мультимодальных моделей с длинным контекстом. В текущих архитектурах агенты вынуждены повторно кодировать одни и те же визуальные данные — кадры видео или скриншоты интерфейсов — при каждом сдвиге контекстного окна. Стандартные механизмы кэширования префиксов не справляются с этой задачей, так как они привязаны к фиксированной позиции токенов, что делает невозможным эффективное повторное использование данных при итеративном анализе. arXiv · Память и RAG Sparse Event-KV: новый подход к управлению памятью в долгосрочных ИИ-агентах Исследователи представили концепцию Sparse Event-KV, пересматривающую принципы работы KV-кэша в долгосрочных ИИ-агентах. Авторы изучили эффективность хранения выборочных данных в кэше при удалении исходных наблюдений. Результаты показывают, что сохранение отдельных событий остается информативным для модели даже при потере контекста, что позволяет оптимизировать использование памяти без существенной потери качества генерации ответов в агентных системах. Hacker News · Инфраструктура для агентов Метод Prefill Tax: оптимизация контекста для локальных LLM Разработчики представили концепцию «Prefill Tax» — метод оптимизации работы локальных LLM, при котором модель повторно анализирует собственный системный промпт перед генерацией ответа. Этот подход позволяет снизить вычислительные затраты на обработку длинных контекстных окон и повысить точность следования инструкциям, минимизируя галлюцинации при работе с большими объемами данных в агентных системах. Hacker News · Инференс и железо Оптимизация инференса для длинного контекста на потребительских GPU Исследователи представили метод эффективной обработки контекста до миллиона токенов на обычном потребительском оборудовании. Технология использует разреженность (sparsity) вычислений в механизме внимания, что позволяет радикально снизить требования к видеопамяти и вычислительным мощностям. Это решение делает работу с огромными массивами данных доступной вне специализированных серверных кластеров, открывая новые возможности для локального запуска сложных моделей. Hacker News · Память и RAG Новый метод компактификации кэша ключ-значение для ИИ-агентов Исследователи представили новый метод компактификации кэша ключ-значение (KV), который может значительно улучшить производительность ИИ-агентов. В статье, опубликованной на arXiv, описывается подход Still, который выполняет компактификацию за один проход, что снижает накладные расходы и ускоряет работу систем с большими объёмами данных.

← Все материалы