arXiv · 18.06.2026 ·Машинное обучение

Анализ влияния текстовых инструкций на синтез речи в диффузионных моделях

Исследователи представили метод интерпретации работы систем синтеза речи (TTS), управляемых текстовыми описаниями стиля. В современных моделях, использующих естественный язык для настройки характеристик голоса, долгое время оставалось неясным, какие именно слова в промпте определяют конкретные акустические параметры аудиовыхода. Понимание этой связи необходимо для диагностики ошибок генерации и повышения точности управления эмоциональной окраской речи.

Авторы адаптировали механизм кросс-аттеншн атрибуции (DAAM) для работы с диффузионными моделями синтеза речи. Этот подход позволяет визуализировать и количественно оценить вклад отдельных слов из текстового описания в формирование спектрограммы. Анализ показывает, как модель «распределяет внимание» между описательными прилагательными и параметрами звукового сигнала, что дает возможность выявлять причины нежелательных искажений или несоответствия заданному стилю.

Разработанный метод открывает новые возможности для отладки генеративных аудиосистем. Вместо «черного ящика» разработчики получают инструмент для анализа того, как лингвистические инструкции трансформируются в акустические признаки. Это позволяет более эффективно настраивать модели для передачи специфических интонаций, тембра и темпа, обеспечивая предсказуемый результат при работе с комплексными текстовыми запросами.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука Исследование взаимодействия речи и текста в латентном пространстве моделей Исследователи проанализировали работу моделей, обучаемых на чередующихся последовательностях речевых и текстовых токенов. Основная цель работы заключалась в том, чтобы понять, как именно различные модальности взаимодействуют внутри латентного пространства нейросети и как текстовые данные влияют на развитие навыков обработки аудио. arXiv · Машинное обучение Новый метод управления генерацией речи через классификаторы Исследователи представили метод оптимизации генерации речи с помощью диффузионных моделей, который позволяет отказаться от обучения специализированных классификаторов для управления процессом. Традиционный подход к направленной генерации (classifier guidance) требует одновременного использования двух отдельных моделей: диффузионной и классификатора, обученного на зашумленных данных. Это усложняет архитектуру и увеличивает вычислительные затраты при развертывании систем синтеза. arXiv · Машинное обучение Новый метод обучения речевых моделей без instruction tuning Исследователи представили метод, позволяющий речевым языковым моделям (SLM) следовать инструкциям без необходимости проведения дорогостоящего обучения с подкреплением или специфического instruction tuning. Авторы доказали, что композиционные способности моделей можно раскрыть через архитектурные оптимизации, избегая синтеза огромных массивов размеченных аудиоданных, что значительно упрощает адаптацию моделей для работы с голосовыми командами и сложными речевыми задачами. arXiv · Исследования и наука Борьба с «короткими путями» в ИИ-системах оценки устной речи Исследователи представили метод борьбы с проблемой «коротких путей» (shortcut reliance) в моделях автоматической оценки устной английской речи. Современные трансформеры часто находят неявные корреляции, игнорируя лингвистическое содержание. Новый подход позволяет принудительно направлять обучение модели на релевантные признаки, повышая точность и надежность автоматизированных систем тестирования в образовательных технологиях. arXiv · Исследования и наука Исследование влияния характеристик аудиокниг на их популярность Исследователи проанализировали влияние акустических характеристик дикторской речи на вовлеченность слушателей аудиокниг. Используя данные платформы LibriVox и предобученные аудиомодели, авторы выделили ключевые параметры — тембр, темп и громкость. Результаты показывают, что восприятие качества озвучки существенно зависит от жанра произведения, индивидуальных предпочтений аудитории и специфики конкретного контента, что открывает новые возможности для оптимизации производства аудиокниг. arXiv · Машинное обучение Повышение качества обработки речи через точное моделирование акустики помещений Исследователи представили новый подход к улучшению многоканальной обработки речи, основанный на использовании волновых методов симуляции акустики помещений для подготовки обучающих данных. В отличие от упрощенных геометрических моделей, волновое моделирование обеспечивает высокую физическую точность, что позволяет нейронным сетям эффективнее справляться с шумами и реверберацией в реальных условиях эксплуатации аудиосистем и голосовых помощников. arXiv · Машинное обучение FlowEdit: адаптация TTS-систем без переобучения моделей Исследователи представили метод FlowEdit, позволяющий корректировать произношение в системах синтеза речи (TTS) на базе flow-matching без необходимости дообучения весов модели. Современные генеративные системы синтеза показывают высокое качество в режиме zero-shot, однако они остаются статичными после развертывания. Это приводит к устойчивым ошибкам при озвучивании редких имен собственных или специфических терминов, отсутствующих в обучающей выборке. arXiv · Исследования и наука Новый метод генерации многоголосых аудиосцен ScenA Исследователи представили метод ScenA, который позволяет создавать реалистичные многоголосые аудиосцены на основе текстовых описаний. В отличие от традиционных систем, которые работают с «чистой» речью и требуют жесткой привязки дикторов к репликам через метаданные, новая технология учитывает контекст реального окружения. Модель обучается на «диких» данных, что позволяет ей воспроизводить не только голоса нескольких спикеров, но и естественную акустическую текстуру диалога. arXiv · Исследования и наука Новый метод иерархического моделирования для полнодуплексных речевых моделей Исследователи представили метод иерархического акустико-семантического моделирования (HASM), направленный на решение проблемы интерференции модальностей в полнодуплексных речевых моделях (SLM). Новый подход разделяет обработку акустических и семантических признаков, что позволяет значительно повысить когерентность речи и снизить деградацию знаний при одновременной обработке аудиопотока и текстовой семантики, обеспечивая более естественное и стабильное взаимодействие в реальном времени. arXiv · Исследования и наука Audio-Native: распознавание речи через дискретные диффузионные модели Исследователи представили метод автоматического распознавания речи, основанный на дискретных диффузионных языковых моделях вместо традиционных авторегрессионных декодеров. В отличие от последовательной генерации токенов, новый подход позволяет уточнять транскрипцию целиком параллельно за несколько шагов шумоподавления. В качестве основы используется модель DiffusionGemma с 26 миллиардами параметров, адаптированная для работы с аудиоданными напрямую.

← Все материалы