OpenAI представила системную карту (System Card) для предварительной версии модели GPT-5.6, подробно описывающую подходы к безопасности и оценке рисков. Документ раскрывает методологию тестирования модели на устойчивость к вредоносному контенту, попыткам обхода ограничений и потенциальным угрозам безопасности, предоставляя прозрачный взгляд на процессы верификации перед широким релизом.
Системная карта фокусируется на результатах «красного тестирования» (red teaming), где эксперты пытались спровоцировать модель на генерацию опасных ответов. В отчете детально разбираются сценарии, связанные с кибербезопасностью, биологическими угрозами и дезинформацией. Особое внимание уделено тому, как именно архитектурные изменения и методы обучения с подкреплением на основе отзывов людей (RLHF) влияют на снижение вероятности нежелательного поведения системы.
Документ также содержит сравнительный анализ производительности GPT-5.6 по сравнению с предыдущими итерациями в контексте безопасности. Исследователи приводят метрики, демонстрирующие эффективность встроенных фильтров и механизмов самоконтроля модели при работе с запросами, которые ранее могли приводить к нарушению политик использования. Эти данные служат важным индикатором прогресса в области алайнмента (согласования целей ИИ с человеческими ценностями).
Ключевые факты
- Документ охватывает результаты стресс-тестирования модели GPT-5.6 на предмет уязвимостей в безопасности.
- Основные категории рисков включают генерацию вредоносного кода, химические/биологические угрозы и предвзятость.
- В отчете представлены количественные показатели снижения частоты успешных атак на модель по сравнению с GPT-4o.
- Описаны методы «красного тестирования», проводимого как внутренними командами, так и внешними экспертами по безопасности.
- Особое внимание уделено способности модели распознавать и блокировать попытки манипуляции через сложные многоходовые промпты.