Исследователи представили EMPATH — специализированный бенчмарк для оценки безопасности чат-ботов, оказывающих эмоциональную поддержку. В отличие от стандартных тестов, EMPATH моделирует многоходовые диалоги в кризисных ситуациях на разных языках. Система использует модель-аудитор, которая имитирует поведение пользователей в состоянии стресса, позволяя выявлять уязвимости в логике безопасности ИИ, скрытые в длительных разговорах.
Традиционные методы тестирования безопасности часто ограничиваются статичными промптами и короткими репликами, что не отражает реальную динамику общения с пользователями в кризисе. EMPATH фокусируется на способности модели сохранять безопасное поведение на протяжении всей сессии, учитывая культурные и языковые нюансы. Это критически важно для систем, работающих в чувствительных сферах, где ошибка ИИ может привести к серьезным последствиям для пользователя.
Бенчмарк позволяет оценивать, как чат-боты справляются с провокациями, попытками манипуляции и эмоционально заряженными запросами. Использование многоязычного подхода помогает разработчикам понять, насколько устойчивы их решения при работе с пользователями из разных регионов, где восприятие психологической помощи и стандарты безопасности могут существенно различаться.
Ключевые факты
- EMPATH разработан для тестирования чат-ботов в сценариях психологической и эмоциональной поддержки.
- Бенчмарк использует модель-аудитор для имитации многоходовых диалогов с пользователями в кризисных ситуациях.
- Основной акцент сделан на многоязычности и устойчивости безопасности при длительном взаимодействии.
- Тест позволяет выявлять сбои в безопасности, которые невозможно обнаружить при использовании коротких или фиксированных промптов.