Исследователи представили модель TRACE и датасет DyadEE, предназначенные для анализа эмоциональной синхронизации (entrainment) в диалоговой речи. Система учитывает временные зависимости и социальный контекст общения, что позволяет ИИ-агентам точнее распознавать аффективную координацию между собеседниками. Это критически важный шаг для создания более естественных и эмпатичных голосовых интерфейсов, способных адаптироваться к эмоциональному состоянию пользователя в реальном времени.

Эмоциональная синхронизация — это процесс, при котором собеседники подстраиваются друг под друга в ходе разговора, копируя интонации, темп или эмоциональный окрас. До сих пор существующие методы часто игнорировали динамический характер этих изменений, рассматривая диалог как набор статичных сегментов. Новый подход фокусируется на временных связях, позволяя модели отслеживать, как именно меняется эмоциональный фон участников на протяжении всей беседы.

Внедрение подобных алгоритмов в архитектуру голосовых ИИ-агентов позволит значительно улучшить качество взаимодействия в таких сферах, как клиентская поддержка, психологическое консультирование и образовательные технологии. Понимание того, как и когда происходит эмоциональная подстройка, дает возможность системам не просто отвечать на запросы, но и поддерживать необходимый тон общения, повышая вовлеченность и доверие со стороны пользователя.

Ключевые факты

  • Датасет DyadEE содержит размеченные данные диалоговых взаимодействий, сфокусированные на выявлении эмоциональной синхронизации.
  • Модель TRACE использует архитектуру, учитывающую временные отношения (Temporal Relationship-Aware) для более точного детектирования аффективных паттернов.
  • Исследование направлено на решение проблемы отсутствия контекстуальной глубины в текущих системах распознавания эмоций в речи.
  • Разработка позволяет ИИ-агентам лучше адаптироваться к динамике социального взаимодействия в диалогах между двумя участниками.