Исследователи провели комплексную оценку способности современных языковых моделей распознавать широкий спектр человеческих эмоций в формате zero-shot. В тесте участвовали Claude 3.5 Sonnet, GPT-4o и Gemini 1.5 Flash. Анализ показал, насколько точно ИИ справляется с классификацией сложных эмоциональных состояний, что критически важно для развития систем психологической поддержки, клиентского сервиса и проектирования естественного взаимодействия человека с машиной.
Работа фокусируется на преодолении так называемого «аффективного разрыва» — неспособности моделей адекватно интерпретировать нюансы человеческих чувств, выходящие за рамки базовых категорий вроде «радость» или «гнев». Авторы использовали детализированные таксономии эмоций, чтобы проверить, как модели справляются с многогранными эмоциональными контекстами, где один текст может содержать противоречивые или скрытые сигналы.
Результаты демонстрируют текущий предел возможностей коммерческих моделей в области эмоционального интеллекта. Исследование подчеркивает, что, несмотря на прогресс в понимании контекста, точность распознавания тонких эмоциональных оттенков остается неравномерной. Это создает новые требования к методам дообучения и оценки моделей, предназначенных для работы в чувствительных сферах, где эмпатия и правильная интерпретация состояния пользователя являются ключевыми факторами успеха.
Ключевые факты
- В исследовании протестированы модели Claude 3.5 Sonnet, GPT-4o и Gemini 1.5 Flash.
- Оценка проводилась в режиме zero-shot без предварительной настройки на специфические эмоциональные датасеты.
- Использованы расширенные таксономии эмоций для выявления точности классификации сложных состояний.
- Результаты указывают на наличие «аффективного разрыва», ограничивающего применение ИИ в психологии и поддержке.
- Работа подчеркивает необходимость разработки новых бенчмарков для оценки эмоционального интеллекта в conversational AI.