Anthropic опубликовала подробный отчет (System Card) по модели Claude 3.5 Sonnet, раскрывающий методологию тестирования, показатели безопасности и устойчивости к злоупотреблениям. Документ содержит детальный разбор поведения модели в критических сценариях, включая кибербезопасность, создание вредоносного контента и автономное выполнение задач, что позволяет оценить реальные риски и ограничения при внедрении системы в корпоративные бизнес-процессы.

Отчет детально описывает процесс «красного тестирования» (red teaming), в ходе которого модель подвергалась стресс-тестам для выявления уязвимостей в логике и соблюдении этических принципов. Особое внимание уделено способности модели писать код и выполнять сложные инструкции без выхода за рамки заданных политик безопасности. Авторы подчеркивают, что, несмотря на высокую производительность, модель сохраняет риск галлюцинаций в специфических доменах, что требует обязательного контроля при использовании в критически важных приложениях.

В документе также представлены сравнительные метрики эффективности Claude 3.5 Sonnet по сравнению с предыдущими версиями линейки. Разработчики сфокусировались на улучшении способности модели следовать сложным системным промптам и минимизации вероятности генерации опасных инструкций. Эти данные служат важным ориентиром для компаний, планирующих интеграцию модели в свои продукты, предоставляя прозрачную картину того, как именно система справляется с потенциальными угрозами в реальных условиях эксплуатации.

Ключевые факты

  • Отчет включает результаты тестирования на устойчивость к генерации вредоносного ПО и проведению фишинговых атак.
  • Проведены оценки способности модели к автономному выполнению многошаговых задач в изолированных средах.
  • Опубликованы метрики точности ответов при проверке на соответствие внутренним политикам безопасности Anthropic.
  • Документ содержит анализ рисков, связанных с использованием модели в задачах, требующих высокой степени ответственности, таких как юридическая или медицинская консультация.
  • Представлены данные о снижении частоты отказов при выполнении сложных инструкций по сравнению с Claude 3 Opus.