Исследователи представили метод HPRO (Hierarchical Progressive Reward Optimization), направленный на улучшение эмоциональной выразительности в моделях синтеза речи (TTS). В отличие от стандартного обучения с учителем, которое часто приводит к усредненной и монотонной интонации, новый подход использует иерархическую оптимизацию на основе предпочтений, что позволяет моделям лучше улавливать нюансы человеческой речи и передавать сложные эмоции.

Традиционные методы дообучения LLM-базированных TTS-систем часто сталкиваются с проблемой «статистического усреднения», когда модель теряет индивидуальные эмоциональные характеристики ради достижения высокой точности на средних значениях. HPRO решает эту проблему за счет извлечения предпочтений на разных уровнях иерархии, что позволяет системе последовательно улучшать качество генерации просодии, не теряя при этом стабильности синтеза.

Авторы метода отмечают, что существующие подходы к оптимизации на основе предпочтений часто страдают от конфликтов информации между различными уровнями представления данных. Иерархическая структура HPRO позволяет эффективно разделять эти уровни, обеспечивая более точное соответствие сгенерированной речи заданному эмоциональному контексту. Это делает технологию перспективной для создания более живых и естественных голосовых интерфейсов.

Ключевые факты

  • Метод HPRO использует иерархическую прогрессивную оптимизацию наград для улучшения эмоциональной выразительности TTS.
  • Основная проблема существующих моделей — склонность к «статистически усредненной просодии» при стандартном дообучении.
  • Новый подход устраняет структурные несоответствия и информационные конфликты, возникающие при использовании классических методов оптимизации на основе предпочтений.
  • Исследование сфокусировано на преодолении ограничений текущих LLM-ориентированных архитектур синтеза речи.