Компания Anthropic открыла публичную программу поиска уязвимостей, сфокусированную на кибер-джейлбрейках своих моделей. Разработчики и исследователи безопасности могут получить денежное вознаграждение за обнаружение способов обхода защитных механизмов, которые позволяют ИИ генерировать вредоносный контент или помогать в проведении кибератак. Инициатива направлена на укрепление безопасности систем перед их широким внедрением в критические бизнес-процессы.
Программа реализуется на платформе HackerOne и охватывает широкий спектр векторов атак, включая попытки принудить модель к написанию вредоносного кода, поиску эксплойтов или созданию фишинговых кампаний. Участникам предлагается тестировать устойчивость моделей к сложным промптам, направленным на дестабилизацию этических фильтров и нарушение политик безопасности Anthropic.
Данный подход отражает общеотраслевой тренд на привлечение внешних экспертов для стресс-тестирования больших языковых моделей. В отличие от стандартных баг-баунти, фокусирующихся на программных ошибках, здесь акцент сделан на логических уязвимостях, связанных с поведением ИИ. Полученные данные помогут компании быстрее закрывать бреши в безопасности и совершенствовать методы обучения моделей для противодействия состязательным атакам.
Ключевые факты
- Программа размещена на платформе HackerOne и открыта для участия широкого сообщества исследователей безопасности.
- Основная цель — выявление методов «кибер-джейлбрейка», при которых модель принуждают к выполнению вредоносных действий.
- Вознаграждения выплачиваются за подтвержденные способы обхода защитных барьеров, связанных с кибербезопасностью.
- Исследования помогают Anthropic улучшать устойчивость моделей к генерации вредоносного кода и содействию в проведении кибератак.