arXiv · 15.06.2026 ·Память и RAG

KVEraser: метод для точного удаления контекста из кэша KV

Исследователи из MIT и Google Research представили метод KVEraser, который решает проблему точного удаления контекста из кэша ключ-значение (KV) в больших языковых моделях. Проблема заключается в том, что при удалении части контекста его влияние распространяется на все последующие токены, что делает локальные правки сложными.

KVEraser использует обучаемый механизм для точного управления кэшем KV, что позволяет эффективно удалять устаревшие факты, некорректные наблюдения инструментов, изменённые предпочтения пользователей или вредоносные инъекции. Это особенно важно для приложений с длинным контекстом, где актуальность информации критична.

Метод был протестирован на различных моделях, включая Llama-2 и Mistral, и показал значительное улучшение в точности удаления контекста по сравнению с базовыми подходами. Исследователи отмечают, что KVEraser может быть интегрирован в существующие системы без значительных изменений в архитектуре.

Для разработчиков ИИ-агентов, таких как Jarv, этот метод представляет собой важный шаг вперёд в управлении контекстом. Возможность точного удаления устаревшей или некорректной информации позволяет улучшить качество работы агентов и повысить их надёжность в реальных сценариях использования.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Инфраструктура для агентов VeriCache: метод сжатия KV-кэша без потери точности при инференсе LLM Исследователи представили VeriCache — новый подход к оптимизации KV-кэша, который позволяет сжимать данные без потери качества генерации. Метод решает проблему избыточного потребления памяти при работе с длинными контекстами, сохраняя при этом точность ответов модели на уровне стандартных систем. Это решение значительно снижает требования к видеопамяти при развертывании крупных языковых моделей в продакшене. arXiv · Инфраструктура для агентов DepthWeave-KV: новый метод сжатия KV-кэша для длинного контекста Исследователи представили DepthWeave-KV — метод адаптивного сжатия KV-кэша, решающий проблему нехватки памяти при работе с длинным контекстом. В отличие от стандартных подходов, равномерно распределяющих бюджет сжатия, новый алгоритм использует послойную факторизацию остатков, динамически выделяя ресурсы для наиболее важных токенов. Это позволяет значительно снизить требования к пропускной способности памяти без потери точности извлечения информации. arXiv · Машинное обучение Новый метод оценки ошибок при сжатии KV-кэша через рандомизацию Исследователи предложили новый подход к управлению KV-кэшем в LLM, решающий проблему непредсказуемых ошибок при удалении токенов. Традиционные детерминированные методы удаления часто приводят к неконтролируемому росту погрешности вычислений внимания. Авторы доказали, что рандомизированное проектирование позволяет восстановить консистентность оценок ошибки, обеспечивая более надежную работу систем инференса при ограничении памяти. arXiv · Инфраструктура для агентов Новый метод сжатия KV-кэша для LLM снижает нагрузку на память Исследователи предложили метод AnchorKV для сжатия ключевых значений (KV) в кэше языковых моделей. Это решение направлено на уменьшение нагрузки на память и энергопотребление при инференсе, что особенно актуально для крупных языковых моделей (LLM). arXiv · Инференс и железо FreqDepthKV: новый метод сжатия KV-кэша для длинного контекста Исследователи представили FreqDepthKV — метод оптимизации инференса LLM, решающий проблему нехватки памяти при работе с длинными контекстами. Технология разделяет KV-состояния на низкочастотные общие компоненты и разреженные высокочастотные детали. Это позволяет значительно сократить объем кэша без потери точности при извлечении информации и выполнении многошаговых логических задач, что критично для производительности современных моделей. arXiv · Память и RAG Sparse Event-KV: новый подход к управлению памятью в долгосрочных ИИ-агентах Исследователи представили концепцию Sparse Event-KV, пересматривающую принципы работы KV-кэша в долгосрочных ИИ-агентах. Авторы изучили эффективность хранения выборочных данных в кэше при удалении исходных наблюдений. Результаты показывают, что сохранение отдельных событий остается информативным для модели даже при потере контекста, что позволяет оптимизировать использование памяти без существенной потери качества генерации ответов в агентных системах. MarkTechPost · Инфраструктура для агентов Методы сжатия KV-кэша: обзор подходов TurboQuant, OSCAR и EpiCache При работе с длинным контекстом в современных языковых моделях объем KV-кэша (Key-Value cache) часто превышает размер весов самой модели, создавая критическое узкое место в оперативной памяти. Для решения этой проблемы активно развиваются методы сжатия, среди которых выделяются три ключевых подхода: TurboQuant, OSCAR и EpiCache. Каждый из них предлагает свой способ оптимизации хранения данных, позволяя эффективно обрабатывать массивы токенов без существенной потери точности генерации. arXiv · Инфраструктура для агентов HiKV: иерархическое сжатие KV-кэша для ускорения работы длинных контекстов в LLM Исследователи представили HiKV — метод аппаратного и алгоритмического ускорения декодирования LLM, решающий проблему нехватки памяти при работе с длинными контекстами. Система использует иерархическую оценку важности токенов для сжатия KV-кэша на двух уровнях, что позволяет значительно снизить требования к видеопамяти и повысить пропускную способность инференса без существенной потери точности генерации. arXiv · Инфраструктура для агентов UltraQuant: оптимизация KV-кэша до 4 бит для работы с длинным контекстом Исследователи представили метод UltraQuant, направленный на решение проблемы нехватки памяти при работе с длинными контекстами в ИИ-агентах. Основная нагрузка в таких системах ложится на KV-кэш (Key-Value cache), который хранит промежуточные состояния модели. Использование 4-битного квантования позволяет значительно сократить объем занимаемой видеопамяти, сохраняя при этом точность генерации текста. Hacker News · Память и RAG Новый метод компактификации кэша ключ-значение для ИИ-агентов Исследователи представили новый метод компактификации кэша ключ-значение (KV), который может значительно улучшить производительность ИИ-агентов. В статье, опубликованной на arXiv, описывается подход Still, который выполняет компактификацию за один проход, что снижает накладные расходы и ускоряет работу систем с большими объёмами данных.

← Все материалы