OpenAI представила системную карту (System Card) для модели GPT-5.6 Preview, подробно описывающую подходы к оценке рисков и обеспечению безопасности новой системы. Документ охватывает результаты тестирования модели на устойчивость к генерации вредоносного контента, попыткам обхода ограничений и потенциальным угрозам в области кибербезопасности, предлагая прозрачный взгляд на процессы верификации перед широким развертыванием.

В отчете детально разбираются методологии «красного тестирования» (red teaming), в ходе которого эксперты целенаправленно пытались спровоцировать модель на опасные ответы. Особое внимание уделено способности системы следовать инструкциям по безопасности в сложных сценариях, где контекст запроса может быть замаскирован под легитимные задачи. Исследователи сфокусировались на минимизации рисков, связанных с использованием ИИ для создания вредоносного ПО или проведения фишинговых атак.

Публикация подчеркивает переход компании к более итеративному и открытому процессу оценки безопасности. Вместо того чтобы скрывать результаты внутренних проверок, OpenAI демонстрирует конкретные метрики устойчивости модели к различным типам атак. Это позволяет сообществу разработчиков и исследователей лучше понимать границы возможностей текущего поколения LLM и оценивать эффективность применяемых методов фильтрации и алайнмента.

Ключевые факты

  • Документ содержит подробный анализ уязвимостей модели GPT-5.6 Preview к методам «джейлбрейка» и попыткам манипуляции поведением.
  • В ходе тестирования оценивалась способность модели противостоять генерации инструкций для создания биологического и химического оружия.
  • Проведены замеры эффективности встроенных механизмов защиты при попытках использования модели для автоматизации кибератак.
  • Отчет включает результаты сравнительных тестов с предыдущими версиями моделей для демонстрации прогресса в области безопасности.
  • Опубликованные данные служат основой для дальнейшей доработки протоколов безопасности перед полноценным релизом системы.