Hacker News · 26.06.2026 ·Оценка и бенчмарки

OpenAI опубликовала системную карту модели GPT-5.6

OpenAI представила системную карту (System Card) для предварительной версии модели GPT-5.6, подробно описывающую подходы к безопасности и оценке рисков. Документ раскрывает методологию тестирования модели на устойчивость к вредоносному контенту, попыткам обхода ограничений и потенциальным угрозам безопасности, предоставляя прозрачный взгляд на процессы верификации перед широким релизом.

Системная карта фокусируется на результатах «красного тестирования» (red teaming), где эксперты пытались спровоцировать модель на генерацию опасных ответов. В отчете детально разбираются сценарии, связанные с кибербезопасностью, биологическими угрозами и дезинформацией. Особое внимание уделено тому, как именно архитектурные изменения и методы обучения с подкреплением на основе отзывов людей (RLHF) влияют на снижение вероятности нежелательного поведения системы.

Документ также содержит сравнительный анализ производительности GPT-5.6 по сравнению с предыдущими итерациями в контексте безопасности. Исследователи приводят метрики, демонстрирующие эффективность встроенных фильтров и механизмов самоконтроля модели при работе с запросами, которые ранее могли приводить к нарушению политик использования. Эти данные служат важным индикатором прогресса в области алайнмента (согласования целей ИИ с человеческими ценностями).

Ключевые факты

Документ охватывает результаты стресс-тестирования модели GPT-5.6 на предмет уязвимостей в безопасности.
Основные категории рисков включают генерацию вредоносного кода, химические/биологические угрозы и предвзятость.
В отчете представлены количественные показатели снижения частоты успешных атак на модель по сравнению с GPT-4o.
Описаны методы «красного тестирования», проводимого как внутренними командами, так и внешними экспертами по безопасности.
Особое внимание уделено способности модели распознавать и блокировать попытки манипуляции через сложные многоходовые промпты.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

← Все материалы