Команда Luce-Org представила KVFlash — оптимизацию для работы с большими объёмами контекста в GPU. Решение позволяет обрабатывать до 256K контекста с использованием 72MiB кэша ключ-значение (KV) на видеокарте. Это существенно расширяет возможности локального инференса, особенно для задач, требующих глубокого контекста, таких как RAG или сложные диалоги.

KVFlash интегрируется в LuceBox — фреймворк для разработки ИИ-агентов. Оптимизация снижает нагрузку на память и ускоряет обработку запросов, что делает её полезной для разработчиков, работающих с большими языковыми моделями. Код проекта открыт и доступен на GitHub.

Решение может быть полезно для создания более сложных и автономных ИИ-агентов, способных работать с обширными базами знаний без потери производительности. Это важный шаг в развитии инфраструктуры для локального развёртывания моделей.