Компания Semgrep опубликовала результаты тестирования модели GLM 5.2, которая показала превосходство над Claude 3.5 Sonnet в задачах, связанных с поиском уязвимостей и анализом безопасности кода. Исследование проводилось на внутреннем наборе данных, имитирующем реальные сценарии работы с кодовой базой, где модель продемонстрировала более высокую точность в обнаружении критических багов и написании исправлений.

В ходе эксперимента разработчики использовали специализированный бенчмарк, сфокусированный на специфических паттернах безопасности, которые часто встречаются в корпоративных проектах. GLM 5.2 показала не только более высокую эффективность в поиске уязвимостей, но и продемонстрировала меньшее количество ложноположительных срабатываний по сравнению с текущими лидерами рынка. Это делает модель перспективным инструментом для автоматизации процессов статического анализа и обеспечения безопасности в CI/CD пайплайнах.

Результаты подчеркивают растущую конкуренцию среди специализированных моделей, оптимизированных под узкие технические задачи. В отличие от универсальных LLM, GLM 5.2 демонстрирует узкоспециализированную специализацию, позволяющую эффективнее справляться с анализом сложных программных конструкций и поиском скрытых векторов атак, что критически важно для интеграции в инструменты автоматизированной проверки безопасности кода.

Ключевые факты

  • Модель GLM 5.2 показала более высокие результаты в тестах на поиск уязвимостей, чем Claude 3.5 Sonnet.
  • Тестирование проводилось на базе специализированного набора данных для кибербезопасности, разработанного командой Semgrep.
  • Основным преимуществом модели стало снижение количества ложноположительных срабатываний при анализе исходного кода.
  • Исследование подтверждает эффективность специализированных моделей в задачах автоматизированного поиска багов и обеспечения безопасности разработки.