Исследователи представили метод UltraQuant, направленный на решение проблемы нехватки памяти при работе с длинными контекстами в ИИ-агентах. Основная нагрузка в таких системах ложится на KV-кэш (Key-Value cache), который хранит промежуточные состояния модели. Использование 4-битного квантования позволяет значительно сократить объем занимаемой видеопамяти, сохраняя при этом точность генерации текста.
В основе подхода лежит комбинация ротационного квантования в стиле TurboQuant и кодовых книг. Авторы сравнивают эффективность этого метода с текущим стандартом FP8, реализованным в библиотеке vLLM. Результаты показывают, что сжатие кэша до 4 бит позволяет обрабатывать более длинные последовательности и повышать плотность запросов на одном графическом ускорителе без существенной деградации качества ответов модели.
Технология ориентирована на системы, где агенты часто обращаются к объемным префиксам и работают в условиях высокой конкуренции запросов. Оптимизация KV-кэша становится критическим фактором для масштабирования агентных систем, так как позволяет эффективнее использовать ресурсы GPU при обслуживании длинных диалоговых сессий и сложных сценариев взаимодействия.