Исследователи выявили специфические слои нейронов в архитектуре больших языковых моделей, которые отвечают за распознавание уязвимостей в программном коде. Анализ показал, что эти нейронные структуры активируются при обработке небезопасных паттернов, что позволяет использовать их для автоматизированного аудита безопасности. Открытие дает новый метод интерпретации внутренних механизмов принятия решений моделями при анализе кода.
В ходе работы ученые проанализировали внутренние активации моделей при выполнении задач по поиску ошибок. Выяснилось, что модель не просто «угадывает» уязвимость, а задействует конкретные нейронные пути, которые можно изолировать и интерпретировать. Это позволяет исследователям точнее понимать, какие именно участки кода вызывают срабатывание защитных механизмов, и снижать количество ложноположительных результатов при автоматическом сканировании.
Данный подход открывает возможности для создания более прозрачных инструментов статического анализа на базе ИИ. Вместо того чтобы полагаться на «черный ящик» модели, разработчики могут отслеживать активность этих специфических слоев, чтобы верифицировать найденные уязвимости. Это значительно повышает доверие к результатам работы ИИ-ассистентов в критически важных задачах разработки ПО.
Ключевые факты
- Исследование сфокусировано на идентификации специфических нейронных слоев, отвечающих за классификацию уязвимостей в коде.
- Метод позволяет интерпретировать внутренние активации модели, превращая процесс анализа из «черного ящика» в прозрачный диагностический инструмент.
- Обнаруженные нейронные пути коррелируют с известными типами уязвимостей, что повышает точность автоматизированного поиска ошибок.
- Результаты работы могут быть применены для улучшения систем безопасности в IDE и CI/CD пайплайнах.