Anthropic представила функцию Prompt Caching, позволяющую разработчикам сохранять часто используемые фрагменты контекста, такие как системные инструкции, большие справочные документы или примеры few-shot, в памяти API. Это решение значительно снижает задержки при обработке запросов и сокращает расходы на использование токенов, так как повторно отправляемые данные не требуют полной переобработки моделью при каждом обращении.
Механизм работает на уровне API: разработчик помечает определенные части промпта как кэшируемые. При отправке последующих запросов система автоматически подставляет сохраненные данные, если они соответствуют заданным параметрам. Это особенно эффективно для сложных агентных систем, где модель постоянно обращается к одним и тем же объемным базам знаний или длинным инструкциям для поддержания контекста сессии.
Внедрение кэширования позволяет существенно повысить производительность приложений, работающих с длинным контекстом, где стоимость и время генерации первого токена критичны. Использование этой функции дает возможность масштабировать сложные RAG-системы и многошаговые агентные сценарии без необходимости переплачивать за повторную передачу одних и тех же данных в каждом API-вызове.
Ключевые факты
- Функция поддерживает кэширование промптов для моделей Claude 3.5 Sonnet и Claude 3 Haiku.
- Кэшированные данные сохраняются на стороне API Anthropic и доступны для повторного использования в течение ограниченного времени.
- Использование кэширования снижает стоимость обработки входных токенов (input tokens) за счет исключения повторной передачи статического контекста.
- Метод позволяет значительно сократить время до получения первого токена (TTFT) при работе с объемными системными промптами.
- Разработчики могут управлять временем жизни кэша и обновлять его содержимое при изменении базовых данных.