Исследователи представили фреймворк CWE-Trace, предназначенный для оценки способности больших языковых моделей обнаруживать уязвимости в системном программном обеспечении. Основная проблема существующих решений заключается в том, что модели часто показывают высокие результаты на тестах лишь благодаря заучиванию данных, а не реальному пониманию принципов безопасности. Новый набор данных включает 834 тщательно отобранных примера из ядра Linux, охватывающих 74 типа типичных ошибок программирования (CWE).
Ключевой особенностью CWE-Trace стало строгое разделение данных по временному признаку. Авторы разделили выборку на исторический набор, созданный до 2025 года, и «чистый» набор, содержащий уязвимости, появившиеся после даты отсечки обучающих данных моделей. Такой подход позволяет исключить влияние утечек информации и проверить, способна ли нейросеть выявлять критические баги в коде, который она не видела в процессе обучения, или же она просто имитирует экспертные знания за счет статистического сопоставления паттернов.
Результаты работы подчеркивают разрыв между высокой оценкой моделей на стандартных тестах и их реальной эффективностью при работе с новыми, неизвестными ранее угрозами. Исследование ставит под сомнение надежность текущих методов оценки безопасности ИИ, указывая на необходимость более строгих протоколов тестирования, которые учитывают временную актуальность данных и исключают возможность простого запоминания ответов.