Компания Anthropic возобновила глобальный доступ к модели Fable 5 после двухнедельного перерыва, вызванного правительственным запретом. Ограничения были введены из-за обнаруженной исследователями Amazon уязвимости типа «jailbreak». Для решения проблемы разработчики внедрили новый классификатор безопасности, который блокирует опасные запросы, однако это привело к росту числа ложноположительных срабатываний на безобидных пользовательских командах.

Инцидент подчеркнул сложность обеспечения безопасности в современных LLM. По заявлению Anthropic, выявленный метод обхода защиты применим не только к флагманским моделям, но и к более компактным версиям, таким как Claude Haiku 4.5. Это вынудило компанию пересмотреть подходы к фильтрации контента на уровне архитектуры модели, чтобы предотвратить эксплуатацию подобных уязвимостей в будущем.

Внедренный механизм защиты демонстрирует эффективность свыше 99% в предотвращении попыток взлома. Тем не менее, баланс между строгостью фильтрации и удобством использования остается критической задачей для разработчиков. Повышенная чувствительность классификатора теперь приводит к тому, что система чаще блокирует легитимные запросы, которые ошибочно интерпретируются как попытки обхода ограничений.

Ключевые факты

  • Запрет на использование модели Fable 5 действовал в течение двух недель по требованию правительства США.
  • Уязвимость была первоначально обнаружена исследователями из компании Amazon.
  • Новый классификатор безопасности блокирует более 99% попыток использования метода jailbreak.
  • Проблема эксплуатации защиты актуальна для всей линейки моделей, включая Claude Haiku 4.5.
  • Усиление мер безопасности привело к увеличению количества ложных срабатываний на безопасных запросах.