Компания Semgrep опубликовала результаты тестирования модели GLM 5.2, которая показала превосходство над Claude 3.5 Sonnet в задачах, связанных с поиском уязвимостей и анализом безопасности кода. Исследование проводилось на внутреннем наборе данных, имитирующем реальные сценарии работы с кодовой базой, где модель продемонстрировала более высокую точность в обнаружении критических багов и написании исправлений.
В ходе эксперимента разработчики использовали специализированный бенчмарк, сфокусированный на специфических паттернах безопасности, которые часто встречаются в корпоративных проектах. GLM 5.2 показала не только более высокую эффективность в поиске уязвимостей, но и продемонстрировала меньшее количество ложноположительных срабатываний по сравнению с текущими лидерами рынка. Это делает модель перспективным инструментом для автоматизации процессов статического анализа и обеспечения безопасности в CI/CD пайплайнах.
Результаты подчеркивают растущую конкуренцию среди специализированных моделей, оптимизированных под узкие технические задачи. В отличие от универсальных LLM, GLM 5.2 демонстрирует узкоспециализированную специализацию, позволяющую эффективнее справляться с анализом сложных программных конструкций и поиском скрытых векторов атак, что критически важно для интеграции в инструменты автоматизированной проверки безопасности кода.
Ключевые факты
- Модель GLM 5.2 показала более высокие результаты в тестах на поиск уязвимостей, чем Claude 3.5 Sonnet.
- Тестирование проводилось на базе специализированного набора данных для кибербезопасности, разработанного командой Semgrep.
- Основным преимуществом модели стало снижение количества ложноположительных срабатываний при анализе исходного кода.
- Исследование подтверждает эффективность специализированных моделей в задачах автоматизированного поиска багов и обеспечения безопасности разработки.