Исследователи представили результаты тестирования новой языковой модели GPT-5.6 Sol на специализированных бенчмарках в области кибербезопасности. Анализ сфокусирован на способности модели выявлять уязвимости, писать безопасный код и противодействовать автоматизированным атакам. Полученные метрики позволяют оценить прогресс модели в сравнении с предыдущими итерациями и её пригодность для интеграции в системы защиты информации.

В ходе исследования эксперты использовали набор данных, имитирующий реальные угрозы, с которыми сталкиваются современные корпоративные системы. Модель оценивалась по критериям точности обнаружения эксплойтов и скорости реагирования на инциденты. Результаты показывают, как именно архитектурные изменения в GPT-5.6 Sol влияют на её логические способности при работе с низкоуровневым кодом и сетевыми протоколами.

Данный бенчмарк подчеркивает важность специализированного тестирования для моделей, претендующих на роль помощников в DevSecOps-процессах. Вместо общих тестов на эрудицию авторы делают упор на воспроизводимость результатов в условиях, приближенных к промышленной разработке, что помогает компаниям точнее прогнозировать риски при внедрении генеративного ИИ в критическую инфраструктуру.

Ключевые факты

  • GPT-5.6 Sol продемонстрировала улучшение показателей в поиске уязвимостей типа SQL-инъекций на 15% по сравнению с предыдущей версией.
  • Тестирование проводилось на наборе данных, включающем более 500 уникальных сценариев атак на веб-приложения.
  • Модель показала снижение количества ложноположительных срабатываний при анализе исходного кода на 12%.
  • Исследование подтверждает, что специализация модели на кибербезопасности позволяет эффективнее обрабатывать сложные цепочки логических условий в коде.