Компания Anthropic возобновила доступ к модели Claude Fable 5 после снятия экспортных ограничений США. Обновление включает внедрение специализированного классификатора кибербезопасности, который блокирует попытки обхода защиты с эффективностью более 99%. Параллельно компания совместно с технологическими гигантами представила единую систему оценки тяжести попыток взлома ИИ-моделей, направленную на стандартизацию безопасности в индустрии.

Новый классификатор безопасности интегрирован в архитектуру модели для автоматического выявления вредоносных запросов. При обнаружении попыток использования техник, описанных в недавнем отчете Amazon, система автоматически перенаправляет запрос на модель Opus 4.8 для дополнительной проверки и фильтрации. Это решение позволяет минимизировать риски генерации опасного контента без существенного снижения производительности для легитимных пользователей.

Кроме того, Anthropic инициировала разработку отраслевого стандарта для оценки уязвимостей. Совместно с Amazon, Microsoft и Google предложена методология, основанная на четырех критериях оценки тяжести джейлбрейка. Этот шаг призван создать прозрачную среду для тестирования моделей и обмена данными об угрозах между ведущими разработчиками ИИ, что критически важно для обеспечения безопасности крупных языковых моделей в корпоративном секторе.

Ключевые факты

  • Модель Claude Fable 5 вернулась в эксплуатацию 1 июля после отмены экспортных ограничений.
  • Новый классификатор безопасности блокирует более 99% попыток обхода защиты, описанных в отчете Amazon.
  • Флагманская модель Opus 4.8 используется как дополнительный уровень фильтрации для подозрительных запросов.
  • Anthropic совместно с Amazon, Microsoft и Google предложила единую систему из четырех критериев для оценки тяжести взлома ИИ.