Исследователи представили LuxEmo — специализированный корпус данных для обучения систем синтеза речи (TTS) на люксембургском языке. Набор включает 21 час разговорной речи с эмоциональной окраской, что критически важно для развития технологий в условиях нехватки данных для редких языков. Датасет охватывает четыре категории эмоций и базируется на материалах медиахолдинга RTL.
Разработка подобных корпусов решает проблему «цифрового неравенства» языков, где доминируют модели, обученные на английском или других популярных языках. Использование эмоционально окрашенных данных позволяет создавать более естественные и выразительные ИИ-ассистенты, которые лучше адаптируются к разговорному стилю общения, а не просто воспроизводят монотонный текст.
Материал был подготовлен на основе архивов Radio Télévision Luxembourg, что обеспечило высокое качество исходного аудио. Работа подчеркивает важность создания качественных размеченных датасетов для языков с ограниченными ресурсами, так как именно отсутствие таких данных является главным барьером для внедрения современных речевых технологий в региональные сервисы.
Ключевые факты
- Общий объем корпуса LuxEmo составляет 21 час аудиозаписей.
- Датасет содержит разметку по 4 категориям эмоций для каждой фразы.
- В качестве источника данных использованы материалы молодежных программ RTL.
- Работа направлена на устранение дефицита данных для низкоресурсных языков в области синтеза речи.