Исследователи представили LLM-CTF — новый бенчмарк, содержащий 2 639 реальных примеров задач в формате Capture The Flag. Набор данных объединяет материалы конференции NeurIPS и оригинальные запуски, позволяя оценить способность языковых моделей находить уязвимости, проводить аудит кода и решать прикладные задачи по информационной безопасности в условиях, приближенных к реальным киберугрозам.

Бенчмарк направлен на преодоление разрыва между теоретическими знаниями моделей и их практической применимостью в защите систем. В отличие от стандартных тестов на написание кода, LLM-CTF требует от ИИ глубокого понимания контекста, логического вывода и последовательного выполнения действий для эксплуатации или защиты уязвимых участков программного обеспечения.

Публикация этого набора данных на платформе Kaggle дает исследователям возможность стандартизировать оценку моделей в области безопасности. Это критически важно для понимания того, насколько современные LLM готовы к автономному поиску багов и могут ли они выступать в качестве полноценных помощников для специалистов по кибербезопасности, не допуская при этом опасных ошибок в критически важных инфраструктурах.

Ключевые факты

  • Общий объем датасета составляет 2 639 уникальных точек данных для тестирования.
  • Источниками данных послужили материалы конференции NeurIPS и специально подготовленные оригинальные запуски.
  • Бенчмарк сфокусирован на задачах формата CTF, требующих навыков эксплуатации и защиты систем.
  • Набор данных доступен для публичного использования и анализа на платформе Kaggle.