Hacker News · 01.07.2026 ·Инфраструктура для агентов

VeriCache: метод сжатия KV-кэша без потери точности при инференсе LLM

Исследователи представили VeriCache — новый подход к оптимизации KV-кэша, который позволяет сжимать данные без потери качества генерации. Метод решает проблему избыточного потребления памяти при работе с длинными контекстами, сохраняя при этом точность ответов модели на уровне стандартных систем. Это решение значительно снижает требования к видеопамяти при развертывании крупных языковых моделей в продакшене.

Основная сложность при работе с LLM заключается в линейном росте KV-кэша по мере увеличения длины контекста, что часто становится «бутылочным горлышком» для пропускной способности серверов. Традиционные методы сжатия с потерями часто приводят к деградации ответов, особенно в задачах, требующих высокой точности. VeriCache использует верифицируемый механизм, который гарантирует идентичность результатов сжатого и оригинального кэша.

Технология опирается на адаптивное управление кэшированием, позволяя динамически распределять ресурсы в зависимости от сложности запроса. Это позволяет эффективно обрабатывать длинные последовательности токенов, не увеличивая задержки (latency) и не требуя дополнительного дообучения моделей. Метод легко интегрируется в существующие пайплайны инференса, обеспечивая более высокую плотность запросов на один GPU.

Ключевые факты

VeriCache обеспечивает сжатие KV-кэша без потери точности (lossless), в отличие от стандартных методов квантования или прунинга.
Метод направлен на снижение потребления VRAM, что критично для работы с длинным контекстом в высоконагруженных системах.
Технология позволяет увеличить количество параллельных запросов на одном графическом ускорителе без деградации качества ответов.
Подход совместим с современными архитектурами трансформеров и не требует изменения весов предобученных моделей.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

arXiv · Инфраструктура для агентов Новый метод сжатия KV-кэша для LLM снижает нагрузку на память Исследователи предложили метод AnchorKV для сжатия ключевых значений (KV) в кэше языковых моделей. Это решение направлено на уменьшение нагрузки на память и энергопотребление при инференсе, что особенно актуально для крупных языковых моделей (LLM). MarkTechPost · Инфраструктура для агентов Методы сжатия KV-кэша: обзор подходов TurboQuant, OSCAR и EpiCache При работе с длинным контекстом в современных языковых моделях объем KV-кэша (Key-Value cache) часто превышает размер весов самой модели, создавая критическое узкое место в оперативной памяти. Для решения этой проблемы активно развиваются методы сжатия, среди которых выделяются три ключевых подхода: TurboQuant, OSCAR и EpiCache. Каждый из них предлагает свой способ оптимизации хранения данных, позволяя эффективно обрабатывать массивы токенов без существенной потери точности генерации. arXiv · Инфраструктура для агентов UltraQuant: оптимизация KV-кэша до 4 бит для работы с длинным контекстом Исследователи представили метод UltraQuant, направленный на решение проблемы нехватки памяти при работе с длинными контекстами в ИИ-агентах. Основная нагрузка в таких системах ложится на KV-кэш (Key-Value cache), который хранит промежуточные состояния модели. Использование 4-битного квантования позволяет значительно сократить объем занимаемой видеопамяти, сохраняя при этом точность генерации текста. arXiv · Инфраструктура для агентов GSRQ: новый метод сжатия KV-кэша до уровня ниже 1 бита Исследователи представили метод Gain-Shape Residual Quantization (GSRQ), позволяющий сжимать KV-кэш в больших языковых моделях до значений менее 1 бита на параметр. Технология решает проблему линейного роста потребления памяти при увеличении контекстного окна, сохраняя при этом высокую точность генерации за счет раздельного кодирования амплитуды и формы векторов активаций. Hacker News · Инференс и железо DualPath: новый метод оптимизации пропускной способности памяти при работе LLM Исследователи представили DualPath — архитектурное решение, устраняющее «узкое горлышко» пропускной способности памяти при инференсе агентных LLM. Метод разделяет потоки данных для обработки весов модели и контекста, что позволяет значительно ускорить генерацию токенов в сценариях с длинным контекстом и частыми обращениями к памяти, характерными для современных автономных агентов. Hacker News · Инференс и железо Как кеш ключ-значение влияет на VRAM при работе с длинным контекстом Работа с длинными контекстами в ИИ-моделях — одна из ключевых задач при разработке агентов. Однако увеличение длины контекста приводит к росту потребления VRAM, что ограничивает возможности инференса на доступном железе. В статье разбирается, как именно кеш ключ-значение (KV cache) влияет на использование памяти и какие стратегии позволяют оптимизировать этот процесс. Hacker News · Инфраструктура для агентов KV-psi: управление кэшем LLM через метрики Linux PSI Проект KV-psi предлагает новый подход к оптимизации работы LLM, используя механизм Linux Pressure Stall Information (PSI) для динамического управления KV-кэшем. Инструмент отслеживает нагрузку на ресурсы системы в реальном времени и автоматически урезает кэш при возникновении дефицита памяти, предотвращая критические сбои и замедления при выполнении инференса на локальных вычислительных узлах. Hacker News · Инференс и железо Оптимизация потребления VRAM через пропуск тайлов в архитектурах без Softmax Разработчики представили архитектурное решение для моделей с длинным контекстом, позволяющее существенно снизить требования к видеопамяти. Метод основан на использовании специализированных ядер (kernels) для пропуска вычислений в определенных сегментах данных, что исключает необходимость выполнения операции Softmax на каждом этапе обработки последовательности. arXiv · Инфраструктура для агентов CrossPool: оптимизация памяти при обслуживании множества MoE-моделей Исследователи представили CrossPool — метод эффективного обслуживания множества разреженных MoE-моделей (Mixture-of-Experts). Решение разделяет управление весами моделей и KV-кэшем, что позволяет динамически распределять ресурсы памяти GPU. Это минимизирует потери при работе с «холодными» моделями, которые редко достигают пиковой нагрузки, и значительно повышает плотность размещения моделей на одном сервере. Hacker News · Инференс и железо Решение проблемы утечек VRAM при работе с LLM Разработчики представили решение проблемы «призрачной» видеопамяти (VRAM), которая часто остается занятой после завершения работы с моделями или некорректного закрытия процессов. Инструмент позволяет принудительно освобождать ресурсы GPU, предотвращая ошибки нехватки памяти и необходимость перезагрузки системы при интенсивном тестировании или развертывании локальных LLM на потребительском железе.

← Все материалы