Учёные провели масштабное исследование устойчивости моделей Fable 5 и Opus 4.8 от Anthropic к автоматическим атакам. В ходе работы использовались четыре типа атак, направленных на 7 826 вредоносных намерений, охватывающих десять категорий потенциального вреда.

Для тестирования применялся фреймворк HackAgent, который сгенерировал сотни тысяч адверсиальных попыток. Каждый успешный случай был проверен вручную, чтобы исключить ложные срабатывания.

Исследование показало, что обе модели демонстрируют высокую устойчивость к автоматическим атакам, но некоторые уязвимости всё же были выявлены. Результаты подчёркивают важность постоянного мониторинга и улучшения механизмов безопасности в крупных языковых моделях.

Полный отчёт доступен на arXiv и включает детальный анализ обнаруженных уязвимостей и предложения по их устранению.