Исследователи представили метод оптимизации генерации речи с помощью диффузионных моделей, который позволяет отказаться от обучения специализированных классификаторов для управления процессом. Традиционный подход к направленной генерации (classifier guidance) требует одновременного использования двух отдельных моделей: диффузионной и классификатора, обученного на зашумленных данных. Это усложняет архитектуру и увеличивает вычислительные затраты при развертывании систем синтеза.
Предложенное решение заключается в адаптации стандартного классификатора речи для управления диффузионным процессом без необходимости его переобучения под специфические условия шума. Авторы работы показывают, что использование предобученного классификатора в качестве направляющего звена позволяет эффективно контролировать характеристики генерируемого аудио, сохраняя при этом высокое качество синтеза. Такой подход значительно упрощает пайплайн разработки, так как позволяет использовать уже существующие модели классификации для управления генеративными процессами.
Метод открывает новые возможности для создания компактных систем синтеза речи, где требуется точный контроль над выходными параметрами без избыточных затрат на обучение дополнительных компонентов. Результаты исследования демонстрируют, что перепрофилирование классификаторов не уступает по точности классическим методам направленной генерации, при этом существенно снижая требования к ресурсам для подготовки моделей.