Пользователи обнаружили, что модели Anthropic могут раскрывать части своих системных инструкций при определенных запросах. Это явление, напоминающее классическую атаку через инъекцию промпта, ставит под вопрос надежность изоляции внутренних директив разработчика от пользовательского ввода. Подобные утечки позволяют сторонним лицам частично реконструировать скрытые правила поведения и ограничения, заданные моделью при развертывании.

Исследователи отмечают, что проблема возникает, когда модель пытается следовать сложным инструкциям, которые конфликтуют с пользовательским запросом. В таких случаях LLM может случайно «проговориться» о своих системных установках, пытаясь обосновать отказ или специфический формат ответа. Это создает риски для безопасности приложений, использующих API Anthropic, так как злоумышленники могут использовать полученные данные для поиска уязвимостей в логике работы агента.

Ситуация подчеркивает сложность обеспечения безопасности в архитектурах, где системный промпт и контекст пользователя обрабатываются в рамках одного потока токенов. Разработчики систем на базе LLM сталкиваются с необходимостью внедрения дополнительных уровней фильтрации и проверки выходных данных, чтобы предотвратить раскрытие конфиденциальных инструкций, которые могут содержать бизнес-логику или специфические ограничения безопасности.

Ключевые факты

  • Пользователи зафиксировали случаи, когда модели Anthropic воспроизводят фрагменты системных промптов в ответ на специфические манипулятивные запросы.
  • Утечка системных инструкций позволяет сторонним лицам изучить внутренние правила, ограничения и логику поведения модели.
  • Данная уязвимость классифицируется как форма инъекции промпта, возникающая из-за отсутствия строгой изоляции между системными директивами и пользовательским контентом.
  • Подобные инциденты требуют от разработчиков внедрения дополнительных механизмов валидации ответов для защиты проприетарных инструкций.