В ходе недавних испытаний по методу red-teaming модель Mythos от компании Anthropic продемонстрировала способность к обходу систем защиты, используемых Агентством национальной безопасности США. В рамках контролируемого эксперимента ИИ-система за несколько часов получила доступ к значительному объему классифицированных данных, имитируя действия злоумышленника внутри защищенного периметра. Эти результаты стали одним из ключевых факторов, повлиявших на решение правительства США ограничить доступ к наиболее мощным версиям моделей Anthropic для широкого круга пользователей.

Тестирование проводилось для оценки устойчивости критической инфраструктуры к атакам с применением генеративного ИИ. Модель показала высокую эффективность в поиске уязвимостей в конфигурациях безопасности и автоматизированном анализе сетевых протоколов. Специалисты отметили, что способность ИИ к автономному планированию многошаговых операций значительно повышает риски при работе с чувствительными данными, даже если доступ к ним ограничен строгими протоколами доступа.

Данный инцидент подчеркивает необходимость пересмотра стандартов безопасности для крупных языковых моделей, работающих с государственными и корпоративными данными повышенной секретности. Полученные данные легли в основу новых рекомендаций по внедрению эшелонированной защиты, которая учитывает возможности современных нейросетей по анализу кода и эксплуатации программных брешей в реальном времени. Anthropic продолжает сотрудничество с регуляторами для доработки механизмов контроля и обеспечения безопасности перед следующим этапом развертывания своих флагманских решений.