arXiv · 18.06.2026 ·Машинное обучение

FlowEdit: адаптация TTS-систем без переобучения моделей

Исследователи представили метод FlowEdit, позволяющий корректировать произношение в системах синтеза речи (TTS) на базе flow-matching без необходимости дообучения весов модели. Современные генеративные системы синтеза показывают высокое качество в режиме zero-shot, однако они остаются статичными после развертывания. Это приводит к устойчивым ошибкам при озвучивании редких имен собственных или специфических терминов, отсутствующих в обучающей выборке.

В основе подхода лежит концепция ассоциативной памяти, которая сохраняет исправления в виде латентных правок. Вместо изменения архитектуры нейросети система использует механизм кондиционирования, который динамически корректирует выходной поток данных. Это позволяет адаптировать модель к новым словам «на лету», сохраняя исходные параметры нейросети неизменными.

Такой подход решает проблему деградации качества при попытках дообучения на малых наборах данных и исключает риск «забывания» моделью уже усвоенных навыков. Технология обеспечивает гибкость в работе с узкоспециализированной лексикой, что критически важно для интеграции TTS в профессиональные сервисы, где требуется высокая точность передачи имен, географических названий и профессионального жаргона.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука Новая архитектура для ускорения генеративного улучшения речи Исследователи представили архитектуру для улучшения качества речи, основанную на методе Flow Matching. В отличие от традиционных U-Net моделей, новый подход исключает пропускные соединения (skip-connections) и использует выравнивание латентных представлений. Это позволяет значительно сократить количество итераций при генерации, обеспечивая высокую скорость обработки, необходимую для работы систем в режиме реального времени. arXiv · Машинное обучение Анализ влияния текстовых инструкций на синтез речи в диффузионных моделях Исследователи представили метод интерпретации работы систем синтеза речи (TTS), управляемых текстовыми описаниями стиля. В современных моделях, использующих естественный язык для настройки характеристик голоса, долгое время оставалось неясным, какие именно слова в промпте определяют конкретные акустические параметры аудиовыхода. Понимание этой связи необходимо для диагностики ошибок генерации и повышения точности управления эмоциональной окраской речи. arXiv · Машинное обучение Новый метод борьбы с ошибками накопления в генеративных моделях Flow Matching Исследователи представили метод коррекции ошибки экспозиции (exposure bias) в моделях Flow Matching, использующий внутренние динамические сигналы самой модели. Вместо применения внешних эвристик или статических ограничений, предложенный подход анализирует частотные и направленные характеристики отклонений в процессе генерации, что позволяет модели самостоятельно корректировать траектории обучения и повышать качество синтеза данных. arXiv · Машинное обучение Новый метод обучения речевых моделей без instruction tuning Исследователи представили метод, позволяющий речевым языковым моделям (SLM) следовать инструкциям без необходимости проведения дорогостоящего обучения с подкреплением или специфического instruction tuning. Авторы доказали, что композиционные способности моделей можно раскрыть через архитектурные оптимизации, избегая синтеза огромных массивов размеченных аудиоданных, что значительно упрощает адаптацию моделей для работы с голосовыми командами и сложными речевыми задачами. arXiv · Исследования и наука WordVoice: новый метод точного управления интонацией в TTS-системах на базе LLM Исследователи представили WordVoice — архитектуру для TTS-систем, позволяющую детально управлять характеристиками речи на уровне отдельных слов. В отличие от стандартных end-to-end моделей, работающих с общим контекстом, WordVoice разделяет лингвистическую информацию и акустические параметры, обеспечивая точный контроль над темпом, высотой тона и эмоциональной окраской без потери естественности звучания синтезированного голоса. arXiv · Модели и релизы Freya-TTS: компактная модель для синтеза речи с фокусом на турецкий язык Представлена Freya-TTS — компактная модель преобразования текста в речь, ориентированная на турецкий язык. Архитектура основана на 183,2-миллионном параметрическом диффузионном трансформере (DiT) с использованием метода flow-matching. Модель работает без токенизатора в латентном пространстве AudioVAE2, обеспечивая высокую надежность и эффективность синтеза в разговорных сценариях при минимальных вычислительных затратах. arXiv · Машинное обучение Новый метод управления генерацией речи через классификаторы Исследователи представили метод оптимизации генерации речи с помощью диффузионных моделей, который позволяет отказаться от обучения специализированных классификаторов для управления процессом. Традиционный подход к направленной генерации (classifier guidance) требует одновременного использования двух отдельных моделей: диффузионной и классификатора, обученного на зашумленных данных. Это усложняет архитектуру и увеличивает вычислительные затраты при развертывании систем синтеза. arXiv · Исследования и наука Решение проблемы дрейфа временных меток в современных ASR-системах Исследователи представили метод коррекции дрейфа временных меток в авторегрессионных системах автоматического распознавания речи (ASR). Проблема возникает при длительных паузах, когда модель теряет синхронизацию с аудиопотоком. Новый подход, основанный на редактировании распределения с использованием повторного воспроизведения данных, позволяет корректировать тайминги без необходимости дополнительного выравнивания или сложной постобработки, сохраняя при этом точность транскрипции. AI News & Artificial Intelligence | TechCrunch · Модели и релизы OpenAI представила новые голосовые модели для естественного общения в реальном времени OpenAI выпустила обновленные голосовые модели, способные одновременно слушать и говорить, что обеспечивает бесшовное взаимодействие в режиме реального времени. Технология значительно снижает задержки и позволяет модели улавливать эмоциональные нюансы речи, перебивать пользователя и мгновенно адаптироваться к контексту диалога, что критически важно для качественного синхронного перевода и естественного общения с ИИ-ассистентами. arXiv · Инфраструктура для агентов E-TTS: новый фреймворк для масштабирования рассуждений в робототехнике Исследователи представили E-TTS (Embodied Test-Time Scaling) — фреймворк для улучшения производительности робототехнических агентов через масштабирование рассуждений во время выполнения задач. Система решает проблему длинных последовательностей действий, интегрируя механизмы работы с историей состояний и адаптивное планирование, что позволяет моделям эффективнее справляться со сложными манипуляциями в динамической среде без необходимости дообучения.

← Все материалы