Исследователи SRLabs проанализировали применимость локальных языковых моделей для автоматизированного поиска уязвимостей в коде. В ходе тестирования моделей, таких как Llama 3 и Mistral, выяснилось, что локальные решения способны конкурировать с облачными аналогами в специфических задачах, однако требуют тщательной настройки промптов и контекстного окна для минимизации ложноположительных срабатываний при анализе безопасности.
Основная проблема при переходе на локальные модели заключается в балансе между вычислительными ресурсами и качеством анализа. Облачные API, такие как GPT-4, обладают преимуществом в понимании сложных логических цепочек, но локальные модели обеспечивают полную конфиденциальность данных, что критически важно для корпоративного сектора, работающего с проприетарным кодом.
Для повышения эффективности авторы рекомендуют использовать специализированные методы RAG (Retrieval-Augmented Generation) и дообучение на специфических наборах данных с известными уязвимостями. Это позволяет локальным моделям лучше распознавать паттерны атак, которые часто пропускают стандартные статические анализаторы кода (SAST), при этом сохраняя контроль над инфраструктурой обработки данных.
Ключевые факты
- Исследование проведено компанией SRLabs для оценки замены облачных ИИ-сервисов на локальные аналоги.
- Тестировались модели Llama 3 и Mistral в задачах поиска уязвимостей в исходном коде.
- Локальные модели показывают сопоставимую точность с облачными решениями при условии использования RAG-систем.
- Главным преимуществом локального развертывания названа защита конфиденциальности кода и отсутствие передачи данных сторонним провайдерам.
- Основным ограничением остается потребность в значительных вычислительных мощностях для обработки больших кодовых баз.