Hacker News · 23.06.2026 ·Оценка и бенчмарки

Выпущен LLM-CTF: масштабный бенчмарк для оценки навыков ИИ в кибербезопасности

Исследователи представили LLM-CTF — новый бенчмарк, содержащий 2 639 реальных примеров задач в формате Capture The Flag. Набор данных объединяет материалы конференции NeurIPS и оригинальные запуски, позволяя оценить способность языковых моделей находить уязвимости, проводить аудит кода и решать прикладные задачи по информационной безопасности в условиях, приближенных к реальным киберугрозам.

Бенчмарк направлен на преодоление разрыва между теоретическими знаниями моделей и их практической применимостью в защите систем. В отличие от стандартных тестов на написание кода, LLM-CTF требует от ИИ глубокого понимания контекста, логического вывода и последовательного выполнения действий для эксплуатации или защиты уязвимых участков программного обеспечения.

Публикация этого набора данных на платформе Kaggle дает исследователям возможность стандартизировать оценку моделей в области безопасности. Это критически важно для понимания того, насколько современные LLM готовы к автономному поиску багов и могут ли они выступать в качестве полноценных помощников для специалистов по кибербезопасности, не допуская при этом опасных ошибок в критически важных инфраструктурах.

Ключевые факты

Общий объем датасета составляет 2 639 уникальных точек данных для тестирования.
Источниками данных послужили материалы конференции NeurIPS и специально подготовленные оригинальные запуски.
Бенчмарк сфокусирован на задачах формата CTF, требующих навыков эксплуатации и защиты систем.
Набор данных доступен для публичного использования и анализа на платформе Kaggle.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

arXiv · Оценка и бенчмарки Новый бенчмарк CWE-Trace для проверки навыков LLM в поиске уязвимостей Исследователи представили фреймворк CWE-Trace, предназначенный для оценки способности больших языковых моделей обнаруживать уязвимости в системном программном обеспечении. Основная проблема существующих решений заключается в том, что модели часто показывают высокие результаты на тестах лишь благодаря заучиванию данных, а не реальному пониманию принципов безопасности. Новый набор данных включает 834 тщательно отобранных примера из ядра Linux, охватывающих 74 типа типичных ошибок программирования (CWE). arXiv · Исследования и наука Исследование: классификация киберугроз с помощью открытых моделей Учёные изучили, как открытые языковые модели могут автоматизировать классификацию киберугроз по стандарту MITRE ATT&CK. Ранее этот процесс требовал значительных человеческих усилий, а до появления LLM автоматизация была ограничена сложностью анализа неструктурированных отчётов о киберугрозах (CTI). arXiv · Оценка и бенчмарки NatureBench: новый стандарт для оценки научных способностей ИИ-агентов Исследователи представили NatureBench — специализированный бенчмарк для оценки ИИ-агентов, пишущих код для решения реальных научных задач. В набор вошли 90 междисциплинарных задач, отобранных из публикаций журналов семейства Nature. Цель проекта — проверить, способны ли современные модели не просто воспроизводить результаты, а совершать научные открытия, работая в стандартизированных контейнеризированных средах. arXiv · Машинное обучение Новый датасет для обнаружения кибератак с метками ATT&CK Исследователи представили новый датасет для обнаружения многоэтапных кибератак, который включает логи систем, сетей и браузеров. Существующие публичные датасеты, такие как CICIDS и UNSW-NB15, охватывают только сетевую активность, в то время как другие, например LMDG, фокусируются на хост-активности. arXiv · Оценка и бенчмарки AdversaBench: автоматизированный ред-тиминг LLM с многоуровневой проверкой Исследователи представили AdversaBench — комплексный пайплайн для автоматизированного тестирования безопасности больших языковых моделей. Система использует пять структурированных операторов для мутации входных данных и многоуровневую судейскую панель из трех моделей с мета-судьей для верификации отказов. Метод позволяет эффективно выявлять уязвимости и оценивать переносимость атак между различными архитектурами моделей. arXiv · Оценка и бенчмарки Расширение бенчмарка LiveCodeBench на несколько языков программирования Исследователи представили Multi-LCB — расширенную версию бенчмарка LiveCodeBench, предназначенную для комплексной оценки навыков генерации кода у больших языковых моделей. Оригинальный проект LiveCodeBench стал стандартом в индустрии благодаря использованию актуальных задач с площадок для спортивного программирования и строгому контролю за утечкой данных, что позволяет объективно проверять способности моделей решать новые, ранее не встречавшиеся задачи. arXiv · Безопасность и алайнмент Исследование: способность LLM распознавать атаки через префиллы Исследователи проанализировали способность больших языковых моделей к саморефлексии в контексте безопасности. В ходе эксперимента проверялось, могут ли модели самостоятельно определять, что их ответ был скомпрометирован в результате атаки через «враждебный префилл» (adversarial prefill). В тестировании участвовали десять моделей с открытыми весами объемом от 3 до 70 миллиардов параметров, а также четыре специализированных бенчмарка безопасности. The Cloudflare Blog · ИИ в бизнесе Cloudflare раскрыла архитектуру автоматизированной системы поиска уязвимостей Компания Cloudflare представила технические детали своей многоступенчатой системы для поиска уязвимостей, работающей на базе автоматизированного цикла обработки данных. Решение позволяет выстраивать цепочки анализа, где ИИ-модели последовательно проверяют код на наличие брешей, минимизируя участие человека в рутинных операциях. Ключевым элементом архитектуры стала система управления состоянием, которая позволяет отслеживать прогресс анализа на разных этапах и эффективно обходить ограничения контекстного окна LLM. Hacker News · Память и RAG Уязвимости систем памяти ИИ-агентов к отравлению данными Исследователи представили новый бенчмарк для оценки безопасности систем памяти, используемых в ИИ-агентах. Работа фокусируется на уязвимости «отравления фактами» (fact poisoning), при которой злоумышленник внедряет ложную или вредоносную информацию в базу знаний агента. В ходе экспериментов было доказано, что современные системы RAG (Retrieval-Augmented Generation) могут быть скомпрометированы через манипуляцию данными, которые агент извлекает из внешних источников для принятия решений. Hacker News · Оценка и бенчмарки Модель GPT-5.5-Cyber показала лучшие результаты в тестах по кибербезопасности Новая языковая модель GPT-5.5-Cyber продемонстрировала превосходство над системой Mythos 5 в специализированном бенчмарке, посвященном задачам кибербезопасности. Тестирование включало проверку способности моделей выявлять уязвимости в коде, анализировать векторы атак и предлагать методы защиты в автоматизированном режиме.

← Все материалы