arXiv · 29.06.2026 ·Исследования и наука

Сравнение эффективности ИИ и человека в распознавании дизартрической речи

Исследователи провели сравнительный анализ точности распознавания нидерландской дизартрической речи человеком и тремя современными системами автоматического распознавания (ASR). В ходе эксперимента оценивалась работа моделей Whisper-large-V3, Google Chirp 3 и Omnilingual при обработке спонтанной и прочитанной речи пациента с тяжелой формой дизартрии. Результаты показывают текущие возможности и ограничения нейросетевых моделей в задачах адаптивной обработки специфических речевых нарушений.

Дизартрия значительно затрудняет работу стандартных алгоритмов распознавания речи из-за нечеткой артикуляции и нестабильного темпа. В данном исследовании фокус был сделан на создании персонализированных моделей, способных адаптироваться под индивидуальные особенности пациента. Сравнение с результатами человеческого восприятия позволяет определить, насколько близки современные архитектуры к пониманию речи, которая ранее считалась труднодоступной для машинной обработки.

Полученные данные подчеркивают разрыв между универсальными ASR-системами и необходимостью дообучения моделей на узкоспециализированных датасетах. Использование готовых решений без специфической настройки часто приводит к потере контекста и низкой точности в случаях, когда требуется высокая степень адаптации к физиологическим особенностям диктора.

Ключевые факты

В исследовании сравнивались три модели: Whisper-large-V3, Google Chirp 3 и Omnilingual.
Анализировалась нидерландская непрерывная речь пациента с тяжелой формой дизартрии.
Оценивались два типа речевой активности: чтение текста и спонтанная речь.
Работа направлена на развитие методов персонализации ASR-систем для людей с нарушениями речи.
Исследование подчеркивает критическую важность адаптации моделей для повышения качества инклюзивных технологий.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы