Hacker News · 01.07.2026 ·Безопасность и алайнмент

Anthropic запустила программу вознаграждений за взлом ИИ-моделей

Компания Anthropic открыла публичную программу поиска уязвимостей, сфокусированную на кибер-джейлбрейках своих моделей. Разработчики и исследователи безопасности могут получить денежное вознаграждение за обнаружение способов обхода защитных механизмов, которые позволяют ИИ генерировать вредоносный контент или помогать в проведении кибератак. Инициатива направлена на укрепление безопасности систем перед их широким внедрением в критические бизнес-процессы.

Программа реализуется на платформе HackerOne и охватывает широкий спектр векторов атак, включая попытки принудить модель к написанию вредоносного кода, поиску эксплойтов или созданию фишинговых кампаний. Участникам предлагается тестировать устойчивость моделей к сложным промптам, направленным на дестабилизацию этических фильтров и нарушение политик безопасности Anthropic.

Данный подход отражает общеотраслевой тренд на привлечение внешних экспертов для стресс-тестирования больших языковых моделей. В отличие от стандартных баг-баунти, фокусирующихся на программных ошибках, здесь акцент сделан на логических уязвимостях, связанных с поведением ИИ. Полученные данные помогут компании быстрее закрывать бреши в безопасности и совершенствовать методы обучения моделей для противодействия состязательным атакам.

Ключевые факты

Программа размещена на платформе HackerOne и открыта для участия широкого сообщества исследователей безопасности.
Основная цель — выявление методов «кибер-джейлбрейка», при которых модель принуждают к выполнению вредоносных действий.
Вознаграждения выплачиваются за подтвержденные способы обхода защитных барьеров, связанных с кибербезопасностью.
Исследования помогают Anthropic улучшать устойчивость моделей к генерации вредоносного кода и содействию в проведении кибератак.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

← Все материалы