arXiv · 29.06.2026 ·Оценка и бенчмарки

EMPATH: новый бенчмарк для оценки безопасности чат-ботов психологической поддержки

Исследователи представили EMPATH — специализированный бенчмарк для оценки безопасности чат-ботов, оказывающих эмоциональную поддержку. В отличие от стандартных тестов, EMPATH моделирует многоходовые диалоги в кризисных ситуациях на разных языках. Система использует модель-аудитор, которая имитирует поведение пользователей в состоянии стресса, позволяя выявлять уязвимости в логике безопасности ИИ, скрытые в длительных разговорах.

Традиционные методы тестирования безопасности часто ограничиваются статичными промптами и короткими репликами, что не отражает реальную динамику общения с пользователями в кризисе. EMPATH фокусируется на способности модели сохранять безопасное поведение на протяжении всей сессии, учитывая культурные и языковые нюансы. Это критически важно для систем, работающих в чувствительных сферах, где ошибка ИИ может привести к серьезным последствиям для пользователя.

Бенчмарк позволяет оценивать, как чат-боты справляются с провокациями, попытками манипуляции и эмоционально заряженными запросами. Использование многоязычного подхода помогает разработчикам понять, насколько устойчивы их решения при работе с пользователями из разных регионов, где восприятие психологической помощи и стандарты безопасности могут существенно различаться.

Ключевые факты

EMPATH разработан для тестирования чат-ботов в сценариях психологической и эмоциональной поддержки.
Бенчмарк использует модель-аудитор для имитации многоходовых диалогов с пользователями в кризисных ситуациях.
Основной акцент сделан на многоязычности и устойчивости безопасности при длительном взаимодействии.
Тест позволяет выявлять сбои в безопасности, которые невозможно обнаружить при использовании коротких или фиксированных промптов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы