arXiv · 16.06.2026 ·Инфраструктура для агентов

Новый метод сжатия KV-кэша для LLM снижает нагрузку на память

Исследователи предложили метод AnchorKV для сжатия ключевых значений (KV) в кэше языковых моделей. Это решение направлено на уменьшение нагрузки на память и энергопотребление при инференсе, что особенно актуально для крупных языковых моделей (LLM).

Проблема заключается в том, что масштабирование моделей улучшает их производительность, но увеличивает объём KV-кэша, что создаёт узкое место при инференсе. AnchorKV использует мягкие штрафы и якорные точки для отказа, чтобы сжимать кэш без потери качества.

Авторы утверждают, что их метод позволяет значительно снизить нагрузку на память и энергопотребление, что делает его перспективным для внедрения в устройства с ограниченными ресурсами. Исследование опубликовано на arXiv.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Машинное обучение KV-Cache Grafting: новый метод повышения точности LLM без дообучения Исследователи представили метод KV-Cache Grafting, позволяющий значительно повысить производительность замороженных 12-миллиардных языковых моделей в задачах математического рассуждения. Техника достигает 93,3% точности на бенчмарке AIME, используя манипуляции с кэшем ключей и значений (KV-cache) во время инференса, что позволяет улучшить способности модели без необходимости дорогостоящего дообучения или изменения весов нейросети. arXiv · Инфраструктура для агентов HiKV: иерархическое сжатие KV-кэша для ускорения работы длинных контекстов в LLM Исследователи представили HiKV — метод аппаратного и алгоритмического ускорения декодирования LLM, решающий проблему нехватки памяти при работе с длинными контекстами. Система использует иерархическую оценку важности токенов для сжатия KV-кэша на двух уровнях, что позволяет значительно снизить требования к видеопамяти и повысить пропускную способность инференса без существенной потери точности генерации. Hacker News · Инфраструктура для агентов VeriCache: метод сжатия KV-кэша без потери точности при инференсе LLM Исследователи представили VeriCache — новый подход к оптимизации KV-кэша, который позволяет сжимать данные без потери качества генерации. Метод решает проблему избыточного потребления памяти при работе с длинными контекстами, сохраняя при этом точность ответов модели на уровне стандартных систем. Это решение значительно снижает требования к видеопамяти при развертывании крупных языковых моделей в продакшене. Hacker News · Инференс и железо Predictive Speculative KV Replication для ускорения инференса LLM Исследователи представили метод Predictive Speculative KV Replication, направленный на оптимизацию инференса LLM при неравномерных нагрузках. Технология решает проблему «узкого места» при передаче KV-кэша, позволяя эффективно масштабировать генерацию текста в распределенных системах. Подход значительно снижает задержки (latency) при обработке запросов с высокой вариативностью, повышая общую пропускную способность вычислительных кластеров без потери точности ответов модели. arXiv · Инфраструктура для агентов DepthWeave-KV: новый метод сжатия KV-кэша для длинного контекста Исследователи представили DepthWeave-KV — метод адаптивного сжатия KV-кэша, решающий проблему нехватки памяти при работе с длинным контекстом. В отличие от стандартных подходов, равномерно распределяющих бюджет сжатия, новый алгоритм использует послойную факторизацию остатков, динамически выделяя ресурсы для наиболее важных токенов. Это позволяет значительно снизить требования к пропускной способности памяти без потери точности извлечения информации. arXiv · Инфраструктура для агентов GSRQ: новый метод сжатия KV-кэша до уровня ниже 1 бита Исследователи представили метод Gain-Shape Residual Quantization (GSRQ), позволяющий сжимать KV-кэш в больших языковых моделях до значений менее 1 бита на параметр. Технология решает проблему линейного роста потребления памяти при увеличении контекстного окна, сохраняя при этом высокую точность генерации за счет раздельного кодирования амплитуды и формы векторов активаций. arXiv · Память и RAG Новый подход к управлению контекстным окном LLM через теорию оценивания Исследователи предложили переосмыслить управление ограниченной памятью языковых моделей как задачу статистического оценивания. Вместо эвристических методов отсечения токенов авторы рассматривают процесс как сглаживание с фиксированным лагом. Это позволяет оптимизировать выбор данных для удержания в кэше, повышая эффективность работы моделей с длинным контекстом при ограниченных аппаратных ресурсах. Hacker News · Память и RAG Новый метод компактификации кэша ключ-значение для ИИ-агентов Исследователи представили новый метод компактификации кэша ключ-значение (KV), который может значительно улучшить производительность ИИ-агентов. В статье, опубликованной на arXiv, описывается подход Still, который выполняет компактификацию за один проход, что снижает накладные расходы и ускоряет работу систем с большими объёмами данных. Hacker News · Инфраструктура для агентов Снижение затрат на инференс длинных контекстов через выгрузку KV-кэша Проект OpenLake представил решение для оптимизации инференса LLM с длинным контекстом, позволяющее сократить расходы на 50%. Технология использует внешнее хранилище для KV-кэша (Key-Value Cache), что позволяет эффективно управлять памятью при обработке больших объемов данных, снижая нагрузку на GPU и повышая пропускную способность систем при работе с длинными последовательностями. arXiv · Инференс и железо FreqDepthKV: новый метод сжатия KV-кэша для длинного контекста Исследователи представили FreqDepthKV — метод оптимизации инференса LLM, решающий проблему нехватки памяти при работе с длинными контекстами. Технология разделяет KV-состояния на низкочастотные общие компоненты и разреженные высокочастотные детали. Это позволяет значительно сократить объем кэша без потери точности при извлечении информации и выполнении многошаговых логических задач, что критично для производительности современных моделей.

← Все материалы