OpenAI представила системную карту (System Card) для модели GPT-5.6 Preview, подробно описывающую подходы к оценке рисков и обеспечению безопасности новой системы. Документ охватывает результаты тестирования модели на устойчивость к генерации вредоносного контента, попыткам обхода ограничений и потенциальным угрозам в области кибербезопасности, предлагая прозрачный взгляд на процессы верификации перед широким развертыванием.
В отчете детально разбираются методологии «красного тестирования» (red teaming), в ходе которого эксперты целенаправленно пытались спровоцировать модель на опасные ответы. Особое внимание уделено способности системы следовать инструкциям по безопасности в сложных сценариях, где контекст запроса может быть замаскирован под легитимные задачи. Исследователи сфокусировались на минимизации рисков, связанных с использованием ИИ для создания вредоносного ПО или проведения фишинговых атак.
Публикация подчеркивает переход компании к более итеративному и открытому процессу оценки безопасности. Вместо того чтобы скрывать результаты внутренних проверок, OpenAI демонстрирует конкретные метрики устойчивости модели к различным типам атак. Это позволяет сообществу разработчиков и исследователей лучше понимать границы возможностей текущего поколения LLM и оценивать эффективность применяемых методов фильтрации и алайнмента.
Ключевые факты
- Документ содержит подробный анализ уязвимостей модели GPT-5.6 Preview к методам «джейлбрейка» и попыткам манипуляции поведением.
- В ходе тестирования оценивалась способность модели противостоять генерации инструкций для создания биологического и химического оружия.
- Проведены замеры эффективности встроенных механизмов защиты при попытках использования модели для автоматизации кибератак.
- Отчет включает результаты сравнительных тестов с предыдущими версиями моделей для демонстрации прогресса в области безопасности.
- Опубликованные данные служат основой для дальнейшей доработки протоколов безопасности перед полноценным релизом системы.