Разработчики представили Cachet — инструмент для семантического кэширования запросов к языковым моделям, написанный на языке Rust. Решение позволяет сократить расходы на API и снизить задержки при работе с LLM за счет переиспользования ответов на похожие по смыслу вопросы. В отличие от стандартного кэширования по точному совпадению текста, система анализирует семантическую близость запросов, что делает её эффективной для динамических диалоговых интерфейсов.

Инструмент работает полностью локально, что исключает передачу данных сторонним сервисам и упрощает интеграцию в существующие пайплайны. Cachet выступает в роли прослойки между приложением и LLM-провайдером, перехватывая запросы и проверяя наличие релевантных ответов в векторном хранилище. Если семантически близкий результат найден, система возвращает его пользователю без обращения к внешней модели.

Использование семантического кэша позволяет значительно оптимизировать работу агентных систем, где часто возникают повторяющиеся или близкие по контексту задачи. Локальная архитектура на Rust обеспечивает высокую производительность и минимальное потребление ресурсов, что критично для масштабируемых сервисов, работающих с большими объемами запросов в реальном времени.