Исследователи представили LLM-CTF — новый бенчмарк, содержащий 2 639 реальных примеров задач в формате Capture The Flag. Набор данных объединяет материалы конференции NeurIPS и оригинальные запуски, позволяя оценить способность языковых моделей находить уязвимости, проводить аудит кода и решать прикладные задачи по информационной безопасности в условиях, приближенных к реальным киберугрозам.
Бенчмарк направлен на преодоление разрыва между теоретическими знаниями моделей и их практической применимостью в защите систем. В отличие от стандартных тестов на написание кода, LLM-CTF требует от ИИ глубокого понимания контекста, логического вывода и последовательного выполнения действий для эксплуатации или защиты уязвимых участков программного обеспечения.
Публикация этого набора данных на платформе Kaggle дает исследователям возможность стандартизировать оценку моделей в области безопасности. Это критически важно для понимания того, насколько современные LLM готовы к автономному поиску багов и могут ли они выступать в качестве полноценных помощников для специалистов по кибербезопасности, не допуская при этом опасных ошибок в критически важных инфраструктурах.
Ключевые факты
- Общий объем датасета составляет 2 639 уникальных точек данных для тестирования.
- Источниками данных послужили материалы конференции NeurIPS и специально подготовленные оригинальные запуски.
- Бенчмарк сфокусирован на задачах формата CTF, требующих навыков эксплуатации и защиты систем.
- Набор данных доступен для публичного использования и анализа на платформе Kaggle.