Компания Anthropic выпустила обновленную версию модели Fable 5, предназначенную для автоматизированного тестирования безопасности ИИ-систем. Инструмент имитирует сложные сценарии атак, позволяя исследователям выявлять уязвимости в поведении моделей до их публичного релиза. Обновление направлено на повышение устойчивости ИИ к попыткам обхода этических ограничений и вредоносному использованию в реальных условиях.

Fable 5 использует агентный подход для генерации динамических диалогов, которые проверяют границы безопасности LLM. В отличие от статических наборов данных, эта система способна адаптироваться к ответам целевой модели, выстраивая многоходовые стратегии взаимодействия. Такой метод позволяет обнаруживать скрытые «слепые зоны» в архитектуре безопасности, которые часто остаются незамеченными при стандартном тестировании.

Разработка является частью стратегии Anthropic по созданию масштабируемых методов оценки рисков. Автоматизация процесса «красного тестирования» (red teaming) сокращает время, необходимое для проверки новых версий моделей, и обеспечивает более глубокий анализ потенциальных угроз. Инструментарий помогает разработчикам лучше понимать, как именно модели реагируют на попытки манипуляции в различных контекстах.

Ключевые факты

  • Fable 5 специализируется на автоматизированном поиске уязвимостей в больших языковых моделях.
  • Система использует агентную архитектуру для генерации адаптивных сценариев атак в реальном времени.
  • Основная цель релиза — повышение эффективности «красного тестирования» и снижение рисков злоупотребления ИИ.
  • Инструмент позволяет проводить комплексную проверку безопасности без участия человека на каждом этапе диалога.