Исследователи представили AdversaBench — комплексный пайплайн для автоматизированного тестирования безопасности больших языковых моделей. Система использует пять структурированных операторов для мутации входных данных и многоуровневую судейскую панель из трех моделей с мета-судьей для верификации отказов. Метод позволяет эффективно выявлять уязвимости и оценивать переносимость атак между различными архитектурами моделей.
Процесс ред-тиминга в AdversaBench автоматизирует генерацию сложных состязательных запросов, которые провоцируют модели на нарушение политик безопасности. Использование ансамбля судей значительно повышает надежность оценки, минимизируя количество ложноположительных срабатываний, характерных для автоматизированных систем тестирования. Такой подход позволяет масштабировать проверку моделей без необходимости привлечения экспертов-людей на каждом этапе.
Особое внимание в работе уделено кросс-модельной переносимости атак. Исследование показывает, что состязательные примеры, созданные для одной модели, часто сохраняют эффективность при воздействии на другие архитектуры. Это подчеркивает критическую важность стандартизированных методов оценки безопасности для предотвращения системных рисков в LLM-приложениях.
Ключевые факты
- AdversaBench использует пять различных операторов для мутации исходных промптов при генерации состязательных атак.
- Система верификации включает панель из трех судей и дополнительного мета-судью для разрешения спорных решений.
- Метод ориентирован на автоматизацию ред-тиминга, снижая зависимость от ручного тестирования безопасности.
- Исследование подтверждает высокую переносимость атак между различными моделями, что указывает на общие уязвимости в современных архитектурах.