Исследователи проанализировали работу четырех передовых систем голосового ИИ: GPT-4o (OpenAI), Gemini 1.5 Flash (Google), а также Qwen2.5 Omni Plus и Omni Flash (Alibaba). Выяснилось, что модели фокусируются исключительно на текстовом содержании запроса, полностью игнорируя паралингвистические сигналы — интонацию, темп и эмоциональную окраску, которые критически важны для понимания контекста и намерений говорящего.

В ходе тестирования использовались три сценария, где смысл сообщения радикально менялся в зависимости от способа подачи. Во всех случаях ИИ-системы демонстрировали «семантическую глухоту» к невербальным компонентам, обрабатывая только транскрибированные слова. Это создает серьезные риски при использовании технологий в медицине, психологии или клиентском сервисе, где эмоциональный фон определяет суть коммуникации.

Авторы подчеркивают, что текущая архитектура «голосовых» моделей по сути является текстовой обработкой с оберткой из Speech-to-Text, а не полноценным мультимодальным анализом звукового потока. Это ограничивает способность агентов к эмпатии и адекватному реагированию на сложные человеческие эмоции, даже если системы позиционируются как инструменты для «живого» общения в реальном времени.

Ключевые факты

  • В исследовании протестированы четыре системы: OpenAI GPT-4o, Google Gemini 1.5 Flash, Alibaba Qwen2.5 Omni Plus и Omni Flash.
  • Все протестированные модели показали неспособность учитывать интонацию и темп речи, если они противоречат текстовому содержанию.
  • Тестирование проводилось на трех сценариях, требующих распознавания сарказма, тревоги или скрытого подтекста в голосе.
  • Результаты указывают на то, что современные системы голосового ИИ работают как транскрипторы, а не как полноценные анализаторы аудиосигнала.