Исследователи представили новый метод обучения систем распознавания речи (ASR) для шести южноафриканских языков группы банту. Использование фреймворка с обучением по учебной программе (curriculum learning), учитывающего тональные особенности речи, позволило значительно улучшить точность моделей, которые ранее демонстрировали крайне низкие показатели при работе с данными языками в режиме zero-shot.

Проблема распознавания языков банту заключается в их тональной природе, где изменение высоты звука меняет значение слова. Стандартные предобученные модели часто не справляются с этой спецификой, выдавая высокий уровень ошибок (WER). Новый подход объединяет гибридную систему оценки сложности аудиоданных и специализированные адаптеры, которые настраиваются на основе статистических данных о тонах конкретного языка.

Процесс обучения разбит на несколько этапов, что позволяет модели постепенно адаптироваться к лингвистическим нюансам. Такой подход критически важен для обеспечения доступности государственных услуг и образовательных технологий для более чем 80 миллионов носителей этих языков, для которых ранее не существовало качественных решений по автоматической транскрипции речи.

Ключевые факты

  • Разработан фреймворк для 6 языков южной группы банту, ранее имевших критически низкое качество распознавания.
  • Метод использует гибридную систему оценки сложности данных и gated-адаптеры, управляемые статистикой тонов.
  • Внедрена стратегия поэтапного обучения (curriculum learning) для повышения точности моделей в условиях дефицита данных.
  • Решение направлено на преодоление порога WER выше 100%, характерного для текущих foundation-моделей при работе с данными языками.