Представлен проект AICU — специализированный сканер для поиска уязвимостей в больших языковых моделях (LLM). Инструмент предназначен для проведения автоматизированного «красного тестирования» (red teaming), позволяя выявлять слабые места в защите моделей, которые могут привести к генерации нежелательного контента или обходу установленных ограничений безопасности.

Принцип работы AICU основан на использовании набора атакующих промптов и методов, направленных на провокацию модели. Система анализирует ответы ИИ, оценивая их на соответствие заданным политикам безопасности. Такой подход помогает разработчикам и специалистам по информационной безопасности выявлять потенциальные векторы атак на ранних этапах интеграции моделей в продукты, снижая риски эксплуатации уязвимостей конечными пользователями.

Инструмент ориентирован на проверку устойчивости моделей к различным типам манипуляций, включая попытки принудительного изменения поведения или извлечения конфиденциальных данных из обучающей выборки. Использование подобных автоматизированных решений позволяет стандартизировать процесс оценки безопасности ИИ-систем и сократить время, необходимое для проведения ручного тестирования моделей перед их выводом в эксплуатацию.