Исследователи представили VeriCache — новый подход к оптимизации KV-кэша, который позволяет сжимать данные без потери качества генерации. Метод решает проблему избыточного потребления памяти при работе с длинными контекстами, сохраняя при этом точность ответов модели на уровне стандартных систем. Это решение значительно снижает требования к видеопамяти при развертывании крупных языковых моделей в продакшене.

Основная сложность при работе с LLM заключается в линейном росте KV-кэша по мере увеличения длины контекста, что часто становится «бутылочным горлышком» для пропускной способности серверов. Традиционные методы сжатия с потерями часто приводят к деградации ответов, особенно в задачах, требующих высокой точности. VeriCache использует верифицируемый механизм, который гарантирует идентичность результатов сжатого и оригинального кэша.

Технология опирается на адаптивное управление кэшированием, позволяя динамически распределять ресурсы в зависимости от сложности запроса. Это позволяет эффективно обрабатывать длинные последовательности токенов, не увеличивая задержки (latency) и не требуя дополнительного дообучения моделей. Метод легко интегрируется в существующие пайплайны инференса, обеспечивая более высокую плотность запросов на один GPU.

Ключевые факты

  • VeriCache обеспечивает сжатие KV-кэша без потери точности (lossless), в отличие от стандартных методов квантования или прунинга.
  • Метод направлен на снижение потребления VRAM, что критично для работы с длинным контекстом в высоконагруженных системах.
  • Технология позволяет увеличить количество параллельных запросов на одном графическом ускорителе без деградации качества ответов.
  • Подход совместим с современными архитектурами трансформеров и не требует изменения весов предобученных моделей.