Khazad — это библиотека для семантического кэширования запросов к LLM, использующая Redis в качестве векторного хранилища. Инструмент позволяет перехватывать входящие промпты и проверять их семантическую близость к уже выполненным запросам. Если похожий запрос уже обрабатывался, система возвращает сохраненный ответ, что существенно снижает затраты на API и сокращает время ожидания ответа от модели.
В отличие от традиционного кэширования по точному совпадению текста, семантический подход учитывает смысл запроса. Khazad преобразует промпты в векторные представления (эмбеддинги) и выполняет поиск ближайших соседей в Redis. Это позволяет эффективно обрабатывать вариативные формулировки одного и того же вопроса, избегая повторных вычислений для идентичных по сути задач.
Решение ориентировано на интеграцию в существующие пайплайны разработки приложений с использованием LLM. Оно минимизирует нагрузку на внешние модели и оптимизирует использование вычислительных ресурсов, обеспечивая прозрачный слой кэширования между приложением и провайдером модели.
Ключевые факты
- Использует Redis в качестве основного хранилища для векторов и метаданных.
- Реализует поиск семантической близости для предотвращения избыточных вызовов LLM.
- Снижает задержки (latency) и расходы на API за счет повторного использования результатов.
- Предназначен для быстрой интеграции в Python-проекты, работающие с генеративными моделями.