Исследователи обнаружили, что дообучение LLM для задач классификации безопасности создает критические уязвимости, которые не выявляются стандартными методами тестирования. Модели начинают полагаться на поверхностные токеновые индикаторы, сохраняя высокую точность на тестовых выборках, но становясь крайне уязвимыми к простым семантическим трансформациям, таким как замена псевдонимов в PowerShell или изменение структуры команд.

Проблема заключается в разрыве между «унаследованными» знаниями базовой модели и новыми семантическими связями, сформированными в процессе fine-tuning. В то время как модель демонстрирует отличные результаты на классических бенчмарках, она оказывается неспособной распознать вредоносный контент, если он представлен в нетипичном, но функционально идентичном виде. Это делает текущие протоколы оценки безопасности недостаточно надежными для реальных условий эксплуатации.

Авторы работы подчеркивают, что стандартные методы оценки, использующие данные из того же распределения, что и обучающая выборка, создают ложное чувство защищенности. Для повышения устойчивости систем необходимо внедрять стресс-тестирование с использованием методов обфускации и трансформации кода, которые имитируют реальные техники обхода защиты, применяемые злоумышленниками.

Ключевые факты

  • Fine-tuning моделей для классификации безопасности приводит к возникновению «невидимых» уязвимостей, которые игнорируются стандартными метриками.
  • Модели склонны переобучаться на специфических токеновых индикаторах, теряя способность к обобщению семантики вредоносного кода.
  • Эффективность защиты падает при использовании методов обфускации, таких как замена псевдонимов в PowerShell, несмотря на сохранение высокой точности на стандартных наборах данных.
  • Текущие методы оценки безопасности требуют пересмотра в сторону использования трансформаций, сохраняющих поведение кода, для выявления скрытых векторов атак.