Исследователи провели сравнительный анализ точности распознавания нидерландской дизартрической речи человеком и тремя современными системами автоматического распознавания (ASR). В ходе эксперимента оценивалась работа моделей Whisper-large-V3, Google Chirp 3 и Omnilingual при обработке спонтанной и прочитанной речи пациента с тяжелой формой дизартрии. Результаты показывают текущие возможности и ограничения нейросетевых моделей в задачах адаптивной обработки специфических речевых нарушений.
Дизартрия значительно затрудняет работу стандартных алгоритмов распознавания речи из-за нечеткой артикуляции и нестабильного темпа. В данном исследовании фокус был сделан на создании персонализированных моделей, способных адаптироваться под индивидуальные особенности пациента. Сравнение с результатами человеческого восприятия позволяет определить, насколько близки современные архитектуры к пониманию речи, которая ранее считалась труднодоступной для машинной обработки.
Полученные данные подчеркивают разрыв между универсальными ASR-системами и необходимостью дообучения моделей на узкоспециализированных датасетах. Использование готовых решений без специфической настройки часто приводит к потере контекста и низкой точности в случаях, когда требуется высокая степень адаптации к физиологическим особенностям диктора.
Ключевые факты
- В исследовании сравнивались три модели: Whisper-large-V3, Google Chirp 3 и Omnilingual.
- Анализировалась нидерландская непрерывная речь пациента с тяжелой формой дизартрии.
- Оценивались два типа речевой активности: чтение текста и спонтанная речь.
- Работа направлена на развитие методов персонализации ASR-систем для людей с нарушениями речи.
- Исследование подчеркивает критическую важность адаптации моделей для повышения качества инклюзивных технологий.