arXiv · 18.06.2026 ·Оценка и бенчмарки

Новый бенчмарк CWE-Trace для проверки навыков LLM в поиске уязвимостей

Исследователи представили фреймворк CWE-Trace, предназначенный для оценки способности больших языковых моделей обнаруживать уязвимости в системном программном обеспечении. Основная проблема существующих решений заключается в том, что модели часто показывают высокие результаты на тестах лишь благодаря заучиванию данных, а не реальному пониманию принципов безопасности. Новый набор данных включает 834 тщательно отобранных примера из ядра Linux, охватывающих 74 типа типичных ошибок программирования (CWE).

Ключевой особенностью CWE-Trace стало строгое разделение данных по временному признаку. Авторы разделили выборку на исторический набор, созданный до 2025 года, и «чистый» набор, содержащий уязвимости, появившиеся после даты отсечки обучающих данных моделей. Такой подход позволяет исключить влияние утечек информации и проверить, способна ли нейросеть выявлять критические баги в коде, который она не видела в процессе обучения, или же она просто имитирует экспертные знания за счет статистического сопоставления паттернов.

Результаты работы подчеркивают разрыв между высокой оценкой моделей на стандартных тестах и их реальной эффективностью при работе с новыми, неизвестными ранее угрозами. Исследование ставит под сомнение надежность текущих методов оценки безопасности ИИ, указывая на необходимость более строгих протоколов тестирования, которые учитывают временную актуальность данных и исключают возможность простого запоминания ответов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Исследования и наука Исследователи обнаружили «нейроны безопасности» в LLM для поиска уязвимостей в коде Исследователи выявили специфические слои нейронов в архитектуре больших языковых моделей, которые отвечают за распознавание уязвимостей в программном коде. Анализ показал, что эти нейронные структуры активируются при обработке небезопасных паттернов, что позволяет использовать их для автоматизированного аудита безопасности. Открытие дает новый метод интерпретации внутренних механизмов принятия решений моделями при анализе кода. Hacker News · Оценка и бенчмарки Актуальные бенчмарки для оценки безопасности LLM Вопрос безопасности больших языковых моделей остается критическим для корпоративного внедрения. Разработчики и исследователи активно ищут стандартизированные методы оценки устойчивости ИИ к атакам, таким как джейлбрейки, инъекции промптов и утечки данных. На текущий момент сообщество выделяет несколько ключевых фреймворков, позволяющих количественно измерить уязвимости моделей перед их выводом в продакшн. Hacker News · Безопасность и алайнмент Уязвимости в системах безопасности LLM при анализе кода Исследователи продемонстрировали методы обхода механизмов безопасности в больших языковых моделях, используемых для автоматического сканирования кода. Манипулируя промптами, злоумышленники могут заставить ИИ игнорировать наличие вредоносного ПО в анализируемых фрагментах. Это создает серьезные риски для инструментов безопасности, полагающихся на LLM для выявления уязвимостей и бэкдоров в программном обеспечении. arXiv · Исследования и наука Когнитивные искажения LLM при поиске уязвимостей в коде Исследователи проанализировали, как когнитивные эвристики влияют на способность больших языковых моделей находить уязвимости в программном коде. Выяснилось, что нейросети подвержены тем же систематическим ошибкам мышления, что и люди-разработчики. Это ограничивает надежность автоматизированных систем безопасности, так как модели склонны принимать предвзятые решения при оценке потенциально опасных фрагментов кода, что требует пересмотра подходов к их обучению и тестированию. Hacker News · Оценка и бенчмарки Сравнение LLM в поиске уязвимостей в коде через PR-ревью Новое исследование DamSecure оценило эффективность современных LLM в поиске критических уязвимостей безопасности при анализе pull-request'ов. Модели Grok 4.6 и GPT-5.6 показали лучшие результаты по сравнению с решениями от Anthropic, продемонстрировав более высокую точность обнаружения специфических векторов атак в реальных репозиториях. Бенчмарк фокусируется на способности моделей выявлять ошибки до слияния кода в основную ветку. arXiv · Безопасность и алайнмент Скрытые уязвимости LLM при дообучении на задачах безопасности Исследователи обнаружили, что дообучение LLM для задач классификации безопасности создает критические уязвимости, которые не выявляются стандартными методами тестирования. Модели начинают полагаться на поверхностные токеновые индикаторы, сохраняя высокую точность на тестовых выборках, но становясь крайне уязвимыми к простым семантическим трансформациям, таким как замена псевдонимов в PowerShell или изменение структуры команд. arXiv · Безопасность и алайнмент Исследование: способность LLM распознавать атаки через префиллы Исследователи проанализировали способность больших языковых моделей к саморефлексии в контексте безопасности. В ходе эксперимента проверялось, могут ли модели самостоятельно определять, что их ответ был скомпрометирован в результате атаки через «враждебный префилл» (adversarial prefill). В тестировании участвовали десять моделей с открытыми весами объемом от 3 до 70 миллиардов параметров, а также четыре специализированных бенчмарка безопасности. arXiv · Оценка и бенчмарки EvalSafetyGap: новый фреймворк для анализа разрыва в безопасности LLM Исследователи представили EvalSafetyGap — концептуальный фреймворк для оценки безопасности больших языковых моделей, решающий проблему несоответствия между высокими баллами в бенчмарках и реальной уязвимостью систем. Авторы объединили систематический обзор литературы с анализом «серых» данных, чтобы выявить, почему метрики безопасности часто не отражают скрытые свойства моделей, оставаясь недостаточно надежными инструментами для верификации поведения ИИ в критических условиях. arXiv · Оценка и бенчмарки Новый бенчмарк Adversarial Pragmatics для оценки безопасности LLM Исследователи представили бенчмарк Adversarial Pragmatics, предназначенный для глубокого анализа безопасности языковых моделей. В отличие от традиционных тестов, которые сводят результаты к бинарным оценкам «прошел/не прошел», этот инструмент фокусируется на сложных лингвистических сценариях: конфликтах инструкций, скрытых командах и двусмысленности политик безопасности. Это позволяет точнее выявлять причины сбоев в поведении моделей при выполнении агентных задач. arXiv · Машинное обучение Использование системных вызовов для обнаружения новых типов уязвимостей Исследователи представили новый подход к работе систем обнаружения вторжений (HIDS), основанный на анализе последовательностей системных вызовов. Традиционные методы обучения таких систем опираются на конкретные записи CVE (Common Vulnerabilities and Exposures), что ограничивает их эффективность при столкновении с новыми эксплойтами. Авторы работы предложили метод обобщения, позволяющий детектировать неизвестные угрозы, относящиеся к уже известным типам слабостей программного обеспечения.

← Все материалы