Исследователи представили метод FlowEdit, позволяющий корректировать произношение в системах синтеза речи (TTS) на базе flow-matching без необходимости дообучения весов модели. Современные генеративные системы синтеза показывают высокое качество в режиме zero-shot, однако они остаются статичными после развертывания. Это приводит к устойчивым ошибкам при озвучивании редких имен собственных или специфических терминов, отсутствующих в обучающей выборке.

В основе подхода лежит концепция ассоциативной памяти, которая сохраняет исправления в виде латентных правок. Вместо изменения архитектуры нейросети система использует механизм кондиционирования, который динамически корректирует выходной поток данных. Это позволяет адаптировать модель к новым словам «на лету», сохраняя исходные параметры нейросети неизменными.

Такой подход решает проблему деградации качества при попытках дообучения на малых наборах данных и исключает риск «забывания» моделью уже усвоенных навыков. Технология обеспечивает гибкость в работе с узкоспециализированной лексикой, что критически важно для интеграции TTS в профессиональные сервисы, где требуется высокая точность передачи имен, географических названий и профессионального жаргона.