Hacker News · 01.07.2026 ·Инфраструктура для агентов

Anthropic внедрила кэширование промптов для оптимизации работы с контекстом

Anthropic представила функцию Prompt Caching, позволяющую разработчикам сохранять часто используемые фрагменты контекста, такие как системные инструкции, большие справочные документы или примеры few-shot, в памяти API. Это решение значительно снижает задержки при обработке запросов и сокращает расходы на использование токенов, так как повторно отправляемые данные не требуют полной переобработки моделью при каждом обращении.

Механизм работает на уровне API: разработчик помечает определенные части промпта как кэшируемые. При отправке последующих запросов система автоматически подставляет сохраненные данные, если они соответствуют заданным параметрам. Это особенно эффективно для сложных агентных систем, где модель постоянно обращается к одним и тем же объемным базам знаний или длинным инструкциям для поддержания контекста сессии.

Внедрение кэширования позволяет существенно повысить производительность приложений, работающих с длинным контекстом, где стоимость и время генерации первого токена критичны. Использование этой функции дает возможность масштабировать сложные RAG-системы и многошаговые агентные сценарии без необходимости переплачивать за повторную передачу одних и тех же данных в каждом API-вызове.

Ключевые факты

Функция поддерживает кэширование промптов для моделей Claude 3.5 Sonnet и Claude 3 Haiku.
Кэшированные данные сохраняются на стороне API Anthropic и доступны для повторного использования в течение ограниченного времени.
Использование кэширования снижает стоимость обработки входных токенов (input tokens) за счет исключения повторной передачи статического контекста.
Метод позволяет значительно сократить время до получения первого токена (TTFT) при работе с объемными системными промптами.
Разработчики могут управлять временем жизни кэша и обновлять его содержимое при изменении базовых данных.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Инфраструктура для агентов Claude Code внедряет кэширование промптов для оптимизации работы с кодом Anthropic интегрировала технологию кэширования промптов в свой инструмент Claude Code, предназначенный для разработки ПО. Это решение позволяет значительно сократить задержки и снизить затраты при выполнении задач, требующих анализа больших объемов контекста, таких как работа с крупными кодовыми базами, за счет повторного использования ранее обработанных токенов в последующих запросах к модели. Hacker News · Инфраструктура для агентов Anthropic увеличила лимиты на использование API для моделей Claude Компания Anthropic обновила условия использования своего API, существенно повысив лимиты запросов для разработчиков. Увеличение пропускной способности позволяет создавать более сложные агентные системы и масштабировать приложения, работающие с моделями Claude 3.5 Sonnet и Claude 3 Opus, без необходимости частой обработки ошибок 429 (Too Many Requests) и внедрения сложных механизмов ожидания. MarkTechPost · Инфраструктура для агентов Методы сжатия KV-кэша: обзор подходов TurboQuant, OSCAR и EpiCache При работе с длинным контекстом в современных языковых моделях объем KV-кэша (Key-Value cache) часто превышает размер весов самой модели, создавая критическое узкое место в оперативной памяти. Для решения этой проблемы активно развиваются методы сжатия, среди которых выделяются три ключевых подхода: TurboQuant, OSCAR и EpiCache. Каждый из них предлагает свой способ оптимизации хранения данных, позволяя эффективно обрабатывать массивы токенов без существенной потери точности генерации. Hacker News · Модели и релизы Anthropic представила обновленную модель Claude 3.5 Sonnet Компания Anthropic выпустила обновленную версию модели Claude 3.5 Sonnet, которая демонстрирует значительный прирост производительности в задачах программирования и работы с интерфейсами. Новая итерация модели показывает улучшенные результаты в бенчмарках, подтверждая лидерство в области кодинга и автономного выполнения сложных многошаговых инструкций, сохраняя при этом высокую скорость обработки запросов и эффективность использования токенов. Hacker News · MCP и интеграции Anthropic представила Claude Tag для управления контекстом и структурирования данных Anthropic выпустила Claude Tag — новый механизм разметки, позволяющий разработчикам более эффективно структурировать данные при взаимодействии с моделями Claude. Инструмент помогает четко отделять инструкции от пользовательского контента и внешних данных, что значительно снижает вероятность галлюцинаций и повышает точность выполнения сложных агентных задач при работе с длинным контекстом. Hacker News · Модели и релизы Anthropic представила обновленную модель Claude 3.5 Sonnet Компания Anthropic выпустила обновленную версию модели Claude 3.5 Sonnet, которая демонстрирует значительный прирост производительности в задачах программирования и работы с данными. Новая итерация модели показывает улучшенные результаты в бенчмарках на кодирование и логическое мышление, сохраняя при этом высокую скорость обработки запросов и эффективность использования контекстного окна для сложных агентных сценариев. Hacker News · Модели и релизы Anthropic представила Claude 3.5 Sonnet нового поколения Компания Anthropic выпустила обновленную версию модели Claude 3.5 Sonnet, ориентированную на повышенную агентную производительность. Новая итерация значительно улучшила навыки написания кода, логического мышления и выполнения сложных многошаговых задач. Разработчики сфокусировались на способности модели автономно взаимодействовать с интерфейсами и инструментами, что делает её одним из наиболее эффективных решений для автоматизации рабочих процессов в реальном времени. Hacker News · Инфраструктура для агентов Оптимизация контекста для снижения расхода токенов в ИИ-агентах Разработчики представили решение, позволяющее сократить потребление токенов более чем на 60% при выполнении агентных задач. Основной принцип работы заключается в автоматическом выявлении и удалении избыточного, повторяющегося контекста, который часто накапливается в ходе многошаговых рассуждений или длительных сессий взаимодействия с языковыми моделями. Hacker News · Безопасность и алайнмент Anthropic внедрила систему защиты от киберугроз в Claude Opus и Sonnet Компания Anthropic обновила модели Claude 3.5 Sonnet и Claude 3 Opus, добавив встроенные механизмы защиты от кибератак в реальном времени. Система автоматически блокирует запросы, направленные на создание вредоносного ПО, проведение фишинговых кампаний или эксплуатацию уязвимостей. Это решение направлено на предотвращение злоупотреблений генеративным ИИ в контексте киберпреступности, обеспечивая безопасную работу с моделями для широкого круга пользователей. Hacker News · Инфраструктура для агентов Оптимизация контекста и кэширование в ИИ-системах Эффективная работа с контекстом остается ключевым фактором производительности при развертывании LLM. Основная задача заключается в минимизации избыточных вычислений при обработке длинных последовательностей, где значительная часть данных повторяется от запроса к запросу. Использование механизмов кэширования позволяет сохранять промежуточные состояния внимания (KV-кэш) для неизменяемых фрагментов промпта, что существенно снижает время отклика и затраты на инференс.

← Все материалы