Исследователи представили метод интерпретации работы систем синтеза речи (TTS), управляемых текстовыми описаниями стиля. В современных моделях, использующих естественный язык для настройки характеристик голоса, долгое время оставалось неясным, какие именно слова в промпте определяют конкретные акустические параметры аудиовыхода. Понимание этой связи необходимо для диагностики ошибок генерации и повышения точности управления эмоциональной окраской речи.

Авторы адаптировали механизм кросс-аттеншн атрибуции (DAAM) для работы с диффузионными моделями синтеза речи. Этот подход позволяет визуализировать и количественно оценить вклад отдельных слов из текстового описания в формирование спектрограммы. Анализ показывает, как модель «распределяет внимание» между описательными прилагательными и параметрами звукового сигнала, что дает возможность выявлять причины нежелательных искажений или несоответствия заданному стилю.

Разработанный метод открывает новые возможности для отладки генеративных аудиосистем. Вместо «черного ящика» разработчики получают инструмент для анализа того, как лингвистические инструкции трансформируются в акустические признаки. Это позволяет более эффективно настраивать модели для передачи специфических интонаций, тембра и темпа, обеспечивая предсказуемый результат при работе с комплексными текстовыми запросами.