Исследователи предложили метод AnchorKV для сжатия ключевых значений (KV) в кэше языковых моделей. Это решение направлено на уменьшение нагрузки на память и энергопотребление при инференсе, что особенно актуально для крупных языковых моделей (LLM).
Проблема заключается в том, что масштабирование моделей улучшает их производительность, но увеличивает объём KV-кэша, что создаёт узкое место при инференсе. AnchorKV использует мягкие штрафы и якорные точки для отказа, чтобы сжимать кэш без потери качества.
Авторы утверждают, что их метод позволяет значительно снизить нагрузку на память и энергопотребление, что делает его перспективным для внедрения в устройства с ограниченными ресурсами. Исследование опубликовано на arXiv.