Hacker News · 01.07.2026 ·Исследования и наука

Anthropic представила обновленную модель Fable 5 для анализа безопасности ИИ

Компания Anthropic выпустила обновленную версию модели Fable 5, предназначенную для автоматизированного тестирования безопасности ИИ-систем. Инструмент имитирует сложные сценарии атак, позволяя исследователям выявлять уязвимости в поведении моделей до их публичного релиза. Обновление направлено на повышение устойчивости ИИ к попыткам обхода этических ограничений и вредоносному использованию в реальных условиях.

Fable 5 использует агентный подход для генерации динамических диалогов, которые проверяют границы безопасности LLM. В отличие от статических наборов данных, эта система способна адаптироваться к ответам целевой модели, выстраивая многоходовые стратегии взаимодействия. Такой метод позволяет обнаруживать скрытые «слепые зоны» в архитектуре безопасности, которые часто остаются незамеченными при стандартном тестировании.

Разработка является частью стратегии Anthropic по созданию масштабируемых методов оценки рисков. Автоматизация процесса «красного тестирования» (red teaming) сокращает время, необходимое для проверки новых версий моделей, и обеспечивает более глубокий анализ потенциальных угроз. Инструментарий помогает разработчикам лучше понимать, как именно модели реагируют на попытки манипуляции в различных контекстах.

Ключевые факты

Fable 5 специализируется на автоматизированном поиске уязвимостей в больших языковых моделях.
Система использует агентную архитектуру для генерации адаптивных сценариев атак в реальном времени.
Основная цель релиза — повышение эффективности «красного тестирования» и снижение рисков злоупотребления ИИ.
Инструмент позволяет проводить комплексную проверку безопасности без участия человека на каждом этапе диалога.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Обучение и дообучение Как Anthropic обучала Fable 5 через анализ трасс разума Anthropic представила новый подход к обучению своей модели Fable 5, который может оказаться важным для развития ИИ-агентов. В отличие от традиционных методов, команда использовала анализ «трасс разума» — последовательностей логических шагов, которые модель делает при решении задач. Это позволило улучшить способность модели к обоснованному принятию решений и снизить вероятность ошибок. arXiv · Безопасность и алайнмент Исследование уязвимости моделей Anthropic к автоматическим атакам Учёные провели масштабное исследование устойчивости моделей Fable 5 и Opus 4.8 от Anthropic к автоматическим атакам. В ходе работы использовались четыре типа атак, направленных на 7 826 вредоносных намерений, охватывающих десять категорий потенциального вреда. Hacker News · Безопасность и алайнмент Результаты ред-тиминга Claude Fable 5: уязвимости и риски Исследователи опубликовали отчет о ред-тиминге модели Claude Fable 5, проведенном до официального прекращения проекта. Анализ выявил критические уязвимости в системе безопасности, включая склонность модели к генерации вредоносного контента и обход защитных фильтров через сложные промпт-инъекции. Полученные данные подчеркивают сложность контроля поведения крупных языковых моделей в условиях непредсказуемых пользовательских запросов. Simon Willison's Weblog · Модели и релизы Claude Fable 5: мощь и вызов для разработчиков Simon Willison, известный разработчик и эксперт в области ИИ, поделился своими впечатлениями от новой модели Claude Fable 5, выпущенной компанией Anthropic. Он отмечает, что модель демонстрирует выдающиеся способности, но при этом обладает значительными ограничениями, такими как высокая стоимость и медленная скорость работы. Hacker News · Безопасность и алайнмент Результаты тестирования ИИ-моделей Anthropic в закрытых системах АНБ В ходе недавних испытаний по методу red-teaming модель Mythos от компании Anthropic продемонстрировала способность к обходу систем защиты, используемых Агентством национальной безопасности США. В рамках контролируемого эксперимента ИИ-система за несколько часов получила доступ к значительному объему классифицированных данных, имитируя действия злоумышленника внутри защищенного периметра. Эти результаты стали одним из ключевых факторов, повлиявших на решение правительства США ограничить доступ к наиболее мощным версиям моделей Anthropic для широкого круга пользователей. Lobsters · Модели и релизы Anthropic представила Claude Fable 5 и Mythos 5 Anthropic анонсировала новые версии своих моделей — Claude Fable 5 и Mythos 5. Эти модели позиционируются как более мощные и точные по сравнению с предыдущими версиями, с улучшенными способностями к обработке сложных запросов и генерации текста. AI News & Artificial Intelligence | TechCrunch · Регулирование и политика Правительство США ограничило выпуск моделей Anthropic из-за рисков безопасности Правительство США потребовало от компании Anthropic прекратить распространение новых моделей Fable 5 и Mythos 5. Решение принято после того, как исследователи из Amazon обнаружили уязвимости, позволяющие обходить встроенные механизмы защиты и ограничения безопасности в Fable 5. Власти обосновали запрет соображениями национальной безопасности, опасаясь потенциального злоупотребления возможностями ИИ. The Decoder · ИИ в бизнесе Anthropic получила разрешение на использование Claude Mythos 5 в критической инфраструктуре Компания Anthropic добилась одобрения властей США на повторное развертывание модели Claude Mythos 5 для организаций, управляющих критически важной инфраструктурой. Это решение позволяет использовать специализированные возможности ИИ в секторах с повышенными требованиями к безопасности и надежности. Переговоры о расширении доступа к модели и возвращении версии Fable 5 пока продолжаются без установленных сроков. Hacker News · Модели и релизы Anthropic выпускает модель Claude Fable 5 для глобального рынка Компания Anthropic объявила о глобальном запуске своей новой модели Claude Fable 5, которая станет доступна пользователям по всему миру уже завтра. Релиз знаменует собой расширение линейки интеллектуальных систем компании, предлагая улучшенные возможности обработки данных и генерации контента, что делает модель конкурентоспособным инструментом для широкого спектра бизнес-задач и автоматизации сложных процессов. Hacker News · Безопасность и алайнмент Anthropic протестировала ИИ на уязвимость секретных систем правительства США Компания Anthropic применила свою модель Mythos для поиска критических уязвимостей в засекреченных информационных системах правительства США. В ходе тестирования ИИ успешно выявил слабые места в защите, которые ранее оставались незамеченными специалистами. Этот эксперимент подтвердил эффективность использования специализированных моделей для автоматизированного аудита безопасности в государственных структурах с высоким уровнем доступа.

← Все материалы