Mistral AI Blog · 23.03.2026 ·Инфраструктура для агентов

Voxtral TTS: быстрый и адаптивный синтез речи для голосовых агентов

Voxtral TTS: быстрый и адаптивный синтез речи для голосовых агентов

Mistral представила Voxtral TTS — открытую модель синтеза речи с открытыми весами. Она предназначена для создания реалистичного голоса для голосовых агентов. Voxtral работает быстро и может адаптироваться к новым голосам за считанные секунды.

Модель поддерживает более 30 языков и диалектов, включая английский, французский, немецкий, испанский, китайский и арабский. Voxtral TTS может быть использована для создания голосовых помощников, аудиокниг, подкастов и других приложений, требующих синтеза речи.

Voxtral TTS доступна под лицензией Apache 2.0, что позволяет разработчикам свободно использовать и модифицировать модель. Mistral также предоставила примеры кода и документацию для облегчения интеграции модели в различные приложения.

Модель была обучена на большом количестве данных, что позволяет ей производить высококачественный синтез речи. Voxtral TTS может быть использована как локально, так и в облаке, что делает её универсальным решением для различных сценариев использования.

Источник: Mistral AI Blog

Обсудить с ИИ

Похожие материалы

Mistral AI Blog · ИИ в бизнесе Voxtral: голосовой ассистент для автоматизации клиентского сервиса Компания Mistral представила Voxtral — голосового ассистента, предназначенного для автоматизации клиентского сервиса. Новый инструмент позволяет компаниям обрабатывать звонки клиентов с использованием ИИ, что значительно ускоряет и упрощает взаимодействие с клиентами. Hacker News · Модели и релизы Релиз Audio8 TTS: компактная модель для клонирования голоса Представлена Audio8 TTS Preview 0.6B — новая компактная модель для синтеза речи, поддерживающая мультиязычность и функцию zero-shot клонирования голоса. При объеме параметров всего 0,6 миллиарда модель демонстрирует высокую эффективность в генерации естественного звучания, позволяя воспроизводить тембр и интонации целевого спикера на основе короткого аудиофрагмента без необходимости дополнительного обучения. MarkTechPost · Модели и релизы Alibaba представила Qwen-Audio-3.0-TTS для генерации речи в реальном времени Лаборатория Tongyi компании Alibaba выпустила Qwen-Audio-3.0-TTS — специализированную систему синтеза речи, доступную через облачную платформу Model Studio. Модель представлена в двух версиях: Flash для задач с минимальной задержкой и Plus для высококачественного озвучивания. Решение поддерживает 16 языков и ориентировано на интеграцию в производственные среды, требующие стабильной работы с аудиоконтентом. Hacker News · Инференс и железо ZeroLabs: локальный инференс для клонирования голоса с открытыми моделями Проект ZeroLabs предлагает альтернативу облачным сервисам для синтеза речи, позволяя запускать клонирование голоса локально на собственном оборудовании. Решение использует открытые модели, что исключает затраты на API и подписки. Инструмент ориентирован на разработчиков и пользователей, которым требуется высокая производительность при работе с аудио без передачи данных на сторонние серверы и ограничений по количеству запросов. AI News & Artificial Intelligence | TechCrunch · Модели и релизы OpenAI представила новые голосовые модели для естественного общения в реальном времени OpenAI выпустила обновленные голосовые модели, способные одновременно слушать и говорить, что обеспечивает бесшовное взаимодействие в режиме реального времени. Технология значительно снижает задержки и позволяет модели улавливать эмоциональные нюансы речи, перебивать пользователя и мгновенно адаптироваться к контексту диалога, что критически важно для качественного синхронного перевода и естественного общения с ИИ-ассистентами. Hacker News · Модели и релизы Релиз Qwen-Audio-3.0-TTS: новая модель для генерации речи и обработки аудио Alibaba представила Qwen-Audio-3.0-TTS — обновленную мультимодальную модель, специализирующуюся на синтезе речи и понимании аудиосигналов. Система демонстрирует высокую точность в задачах преобразования текста в речь, сохраняя естественную интонацию и эмоциональную окраску, а также поддерживает расширенные возможности обработки звуковых данных, что делает её эффективным инструментом для создания интерактивных голосовых интерфейсов и автоматизированных систем обработки аудиоконтента. arXiv · Модели и релизы Freya-TTS: компактная модель для синтеза речи с фокусом на турецкий язык Представлена Freya-TTS — компактная модель преобразования текста в речь, ориентированная на турецкий язык. Архитектура основана на 183,2-миллионном параметрическом диффузионном трансформере (DiT) с использованием метода flow-matching. Модель работает без токенизатора в латентном пространстве AudioVAE2, обеспечивая высокую надежность и эффективность синтеза в разговорных сценариях при минимальных вычислительных затратах. Lobsters · Инфраструктура для агентов Создание полностью локального голосового ассистента Развернута архитектура для работы голосового помощника, функционирующего полностью на локальных мощностях без обращения к облачным API. Система объединяет несколько независимых компонентов: модуль распознавания речи (STT), движок обработки естественного языка (LLM) и синтез речи (TTS). В качестве основы для обработки запросов используется локально запущенная языковая модель, которая обеспечивает приватность данных и независимость от внешних сервисов. arXiv · Исследования и наука WordVoice: новый метод точного управления интонацией в TTS-системах на базе LLM Исследователи представили WordVoice — архитектуру для TTS-систем, позволяющую детально управлять характеристиками речи на уровне отдельных слов. В отличие от стандартных end-to-end моделей, работающих с общим контекстом, WordVoice разделяет лингвистическую информацию и акустические параметры, обеспечивая точный контроль над темпом, высотой тона и эмоциональной окраской без потери естественности звучания синтезированного голоса. MarkTechPost · Модели и релизы Gradium представила модели для перевода речи в реальном времени Компания Gradium выпустила две специализированные модели — stt-translate и s2s-translate, предназначенные для высокоскоростного перевода устной речи. Разработчики оптимизировали архитектуру, сократив традиционный каскад из трех этапов до двух, что позволило добиться более низких показателей задержки и повышенной точности по сравнению с GPT-4o Realtime при работе с 20 языковыми парами.

← Все материалы