Hacker News · 26.06.2026 ·Безопасность и алайнмент

OpenAI опубликовала отчет о безопасности модели GPT-5.6 Preview

OpenAI представила системную карту (System Card) для модели GPT-5.6 Preview, подробно описывающую подходы к оценке рисков и обеспечению безопасности новой системы. Документ охватывает результаты тестирования модели на устойчивость к генерации вредоносного контента, попыткам обхода ограничений и потенциальным угрозам в области кибербезопасности, предлагая прозрачный взгляд на процессы верификации перед широким развертыванием.

В отчете детально разбираются методологии «красного тестирования» (red teaming), в ходе которого эксперты целенаправленно пытались спровоцировать модель на опасные ответы. Особое внимание уделено способности системы следовать инструкциям по безопасности в сложных сценариях, где контекст запроса может быть замаскирован под легитимные задачи. Исследователи сфокусировались на минимизации рисков, связанных с использованием ИИ для создания вредоносного ПО или проведения фишинговых атак.

Публикация подчеркивает переход компании к более итеративному и открытому процессу оценки безопасности. Вместо того чтобы скрывать результаты внутренних проверок, OpenAI демонстрирует конкретные метрики устойчивости модели к различным типам атак. Это позволяет сообществу разработчиков и исследователей лучше понимать границы возможностей текущего поколения LLM и оценивать эффективность применяемых методов фильтрации и алайнмента.

Ключевые факты

Документ содержит подробный анализ уязвимостей модели GPT-5.6 Preview к методам «джейлбрейка» и попыткам манипуляции поведением.
В ходе тестирования оценивалась способность модели противостоять генерации инструкций для создания биологического и химического оружия.
Проведены замеры эффективности встроенных механизмов защиты при попытках использования модели для автоматизации кибератак.
Отчет включает результаты сравнительных тестов с предыдущими версиями моделей для демонстрации прогресса в области безопасности.
Опубликованные данные служат основой для дальнейшей доработки протоколов безопасности перед полноценным релизом системы.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

← Все материалы