arXiv · 18.06.2026 ·Машинное обучение

Новый метод управления генерацией речи через классификаторы

Исследователи представили метод оптимизации генерации речи с помощью диффузионных моделей, который позволяет отказаться от обучения специализированных классификаторов для управления процессом. Традиционный подход к направленной генерации (classifier guidance) требует одновременного использования двух отдельных моделей: диффузионной и классификатора, обученного на зашумленных данных. Это усложняет архитектуру и увеличивает вычислительные затраты при развертывании систем синтеза.

Предложенное решение заключается в адаптации стандартного классификатора речи для управления диффузионным процессом без необходимости его переобучения под специфические условия шума. Авторы работы показывают, что использование предобученного классификатора в качестве направляющего звена позволяет эффективно контролировать характеристики генерируемого аудио, сохраняя при этом высокое качество синтеза. Такой подход значительно упрощает пайплайн разработки, так как позволяет использовать уже существующие модели классификации для управления генеративными процессами.

Метод открывает новые возможности для создания компактных систем синтеза речи, где требуется точный контроль над выходными параметрами без избыточных затрат на обучение дополнительных компонентов. Результаты исследования демонстрируют, что перепрофилирование классификаторов не уступает по точности классическим методам направленной генерации, при этом существенно снижая требования к ресурсам для подготовки моделей.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Новый метод обучения речевых моделей без instruction tuning Исследователи представили метод, позволяющий речевым языковым моделям (SLM) следовать инструкциям без необходимости проведения дорогостоящего обучения с подкреплением или специфического instruction tuning. Авторы доказали, что композиционные способности моделей можно раскрыть через архитектурные оптимизации, избегая синтеза огромных массивов размеченных аудиоданных, что значительно упрощает адаптацию моделей для работы с голосовыми командами и сложными речевыми задачами. arXiv · Машинное обучение Новый метод дообучения моделей речи для специфичных задач Исследователи предложили новый подход к дообучению foundation-моделей речи, которые изначально обучаются на больших объёмах неразмеченных данных. Такие модели создают универсальные представления, полезные для разных задач, но при этом кодируют информацию о ключевых переменных речи распределённо. Это означает, что для конкретных задач требуется только часть этой информации. arXiv · Исследования и наука Новая архитектура для ускорения генеративного улучшения речи Исследователи представили архитектуру для улучшения качества речи, основанную на методе Flow Matching. В отличие от традиционных U-Net моделей, новый подход исключает пропускные соединения (skip-connections) и использует выравнивание латентных представлений. Это позволяет значительно сократить количество итераций при генерации, обеспечивая высокую скорость обработки, необходимую для работы систем в режиме реального времени. arXiv · Машинное обучение Анализ влияния текстовых инструкций на синтез речи в диффузионных моделях Исследователи представили метод интерпретации работы систем синтеза речи (TTS), управляемых текстовыми описаниями стиля. В современных моделях, использующих естественный язык для настройки характеристик голоса, долгое время оставалось неясным, какие именно слова в промпте определяют конкретные акустические параметры аудиовыхода. Понимание этой связи необходимо для диагностики ошибок генерации и повышения точности управления эмоциональной окраской речи. arXiv · Исследования и наука Audio-Native: распознавание речи через дискретные диффузионные модели Исследователи представили метод автоматического распознавания речи, основанный на дискретных диффузионных языковых моделях вместо традиционных авторегрессионных декодеров. В отличие от последовательной генерации токенов, новый подход позволяет уточнять транскрипцию целиком параллельно за несколько шагов шумоподавления. В качестве основы используется модель DiffusionGemma с 26 миллиардами параметров, адаптированная для работы с аудиоданными напрямую. Hacker News · Исследования и наука Новый подход к генерации звука через спектральные латентные диффузионные модели Исследователи представили модель Generative Learned Transformers, использующую спектральную латентную диффузию для синтеза аудио. Метод переводит звуковые сигналы в спектральное представление, что позволяет значительно повысить качество генерации и точность воспроизведения сложных акустических текстур. Технология демонстрирует превосходство над традиционными подходами в задачах моделирования длительных аудиопоследовательностей и сохранения спектральной целостности сигнала. arXiv · Машинное обучение Новый метод оптимизации нейросимвольных систем через дифференцируемый интерпретатор Исследователи представили метод эффективного обучения нейросимвольных моделей, решающий проблему «узкого горлышка» при подборе параметров. Вместо переобучения каждой программы с нуля, авторы предлагают дифференцировать сам процесс интерпретации кода. Это позволяет оптимизировать непрерывные параметры модели напрямую через градиентный спуск, значительно ускоряя поиск оптимальных структур в задачах научного моделирования и автоматического программирования. arXiv · Исследования и наука HPRO: новый метод обучения эмоционального синтеза речи через иерархическую оптимизацию Исследователи представили метод HPRO (Hierarchical Progressive Reward Optimization), направленный на улучшение эмоциональной выразительности в моделях синтеза речи (TTS). В отличие от стандартного обучения с учителем, которое часто приводит к усредненной и монотонной интонации, новый подход использует иерархическую оптимизацию на основе предпочтений, что позволяет моделям лучше улавливать нюансы человеческой речи и передавать сложные эмоции. arXiv · Машинное обучение Повышение устойчивости диффузионных моделей к зашумленным данным Исследователи предложили новый метод обучения диффузионных моделей, который делает их более устойчивыми к загрязненным обучающим выборкам. Традиционный подход, основанный на минимизации среднеквадратичной ошибки (MSE), часто оказывается чувствительным к выбросам и некачественным данным, что снижает итоговое качество генерации контента. arXiv · Исследования и наука Борьба с «короткими путями» в ИИ-системах оценки устной речи Исследователи представили метод борьбы с проблемой «коротких путей» (shortcut reliance) в моделях автоматической оценки устной английской речи. Современные трансформеры часто находят неявные корреляции, игнорируя лингвистическое содержание. Новый подход позволяет принудительно направлять обучение модели на релевантные признаки, повышая точность и надежность автоматизированных систем тестирования в образовательных технологиях.

← Все материалы