Hacker News · 18.06.2026 ·Модели и релизы

Релиз компактной модели для транскрибации китайского языка

Разработчики представили специализированную модель для распознавания речи на китайском языке с параметрами 150 млн. Решение ориентировано на высокую скорость работы и оптимизировано для задач транскрибации в реальном времени. Ключевой особенностью системы является встроенная функция автоматического определения метаданных, что позволяет извлекать контекстную информацию непосредственно в процессе обработки аудиопотока.

Модель демонстрирует эффективность в условиях ограниченных вычислительных ресурсов, что делает её пригодной для развертывания на периферийных устройствах. Использование компактной архитектуры снижает задержки при инференсе, сохраняя при этом точность распознавания, сопоставимую с более тяжелыми аналогами. Инструмент доступен для интеграции в прикладные системы обработки голоса и автоматизированные сервисы анализа аудиоданных.

Техническая реализация проекта сфокусирована на снижении нагрузки на серверную инфраструктуру при сохранении качества обработки естественного языка. Модель уже доступна для тестирования и внедрения в рамках открытых библиотек машинного обучения, что упрощает её использование в проектах, требующих оперативной обработки китайской речи с дополнительной аналитической разметкой.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Модели и релизы Релиз Audio8 TTS: компактная модель для клонирования голоса Представлена Audio8 TTS Preview 0.6B — новая компактная модель для синтеза речи, поддерживающая мультиязычность и функцию zero-shot клонирования голоса. При объеме параметров всего 0,6 миллиарда модель демонстрирует высокую эффективность в генерации естественного звучания, позволяя воспроизводить тембр и интонации целевого спикера на основе короткого аудиофрагмента без необходимости дополнительного обучения. Hacker News · Модели и релизы Релиз Inflect-Micro-v2: компактная модель для работы с голосом Представлена модель Inflect-Micro-v2, демонстрирующая возможность обработки голосовых данных при крайне малом объеме параметров — всего 9,36 млн. Этот релиз подчеркивает тренд на экстремальную оптимизацию нейросетевых архитектур, позволяя запускать функциональные решения для аудиозадач на устройствах с крайне ограниченными вычислительными ресурсами, где использование стандартных LLM или тяжелых трансформеров невозможно. arXiv · Оценка и бенчмарки Представлен CN-NewsTTS Bench для оценки качества синтеза речи в китайских новостях Исследователи выпустили CN-NewsTTS Bench v0.1 — специализированный бенчмарк для оценки систем преобразования текста в речь (TTS) при работе с китайским новостным контентом. Набор данных фокусируется на сложных лингвистических конструкциях, таких как аббревиатуры, смешанные буквенно-цифровые обозначения и специфические символы, которые часто вызывают ошибки в произношении у современных моделей синтеза. Hacker News · Инференс и железо Moonshine: компактные модели распознавания речи и TTS до 500 КБ Разработчики представили Moonshine — семейство сверхлегких моделей для автоматического распознавания речи (ASR) и синтеза речи (TTS), размер которых не превышает 500 КБ. Решение оптимизировано для работы на устройствах с крайне ограниченными вычислительными ресурсами, обеспечивая при этом высокую точность транскрипции и генерации звука, что делает его эффективным инструментом для локальной обработки аудио в агентных системах. The Decoder · Модели и релизы Cohere выпустила открытую модель Transcribe Arabic для распознавания арабской речи Компания Cohere представила Transcribe Arabic — специализированную модель с открытым исходным кодом, предназначенную для высокоточного распознавания арабской речи. Решение ориентировано на работу с диалектами, смешанной арабо-английской речью и переключением кодов, демонстрируя превосходство над существующими аналогами, такими как Whisper и OmniASR, в сложных лингвистических условиях. Hacker News · Исследования и наука Технологический прорыв DeepSeek в архитектуре нейросетей Китайская исследовательская лаборатория DeepSeek представила архитектуру, которая существенно меняет подход к обучению и работе крупных языковых моделей. В основе решения лежит использование архитектуры Mixture-of-Experts (MoE) с глубокой оптимизацией процесса активации параметров. Вместо того чтобы задействовать всю нейросеть целиком для каждого запроса, система активирует лишь малую часть весов, что позволяет радикально снизить вычислительные затраты при сохранении высокой точности ответов. Hacker News · Память и RAG ASR-модель распознаёт не только слова, но и эмоции и намерения Компания Whissle представила новую ASR-модель, способную не только транскрибировать речь, но и анализировать эмоции и намерения говорящего. Это позволяет использовать её для более глубокого понимания контекста в реальном времени. Модель обрабатывает аудио за 200 миллисекунд, что делает её одной из самых быстрых на рынке. MarkTechPost · Модели и релизы Interfaze представила diffusion-gemma-asr-small: модель распознавания речи на базе диффузии Компания Interfaze выпустила open-source модель diffusion-gemma-asr-small, которая использует диффузионный подход вместо традиционной авторегрессии для транскрибации аудио. Решение базируется на замороженной архитектуре DiffusionGemma от Google и дополняется компактным адаптером. Инновация позволяет перевести процесс распознавания речи в параллельный формат, где стоимость вычислений зависит от количества шагов шумоподавления, а не от длительности аудиозаписи. MarkTechPost · Модели и релизы Alibaba представила Qwen-Audio-3.0-TTS для генерации речи в реальном времени Лаборатория Tongyi компании Alibaba выпустила Qwen-Audio-3.0-TTS — специализированную систему синтеза речи, доступную через облачную платформу Model Studio. Модель представлена в двух версиях: Flash для задач с минимальной задержкой и Plus для высококачественного озвучивания. Решение поддерживает 16 языков и ориентировано на интеграцию в производственные среды, требующие стабильной работы с аудиоконтентом. Hacker News · Модели и релизы Релиз Qwen-Audio-3.0-TTS: новая модель для генерации речи и обработки аудио Alibaba представила Qwen-Audio-3.0-TTS — обновленную мультимодальную модель, специализирующуюся на синтезе речи и понимании аудиосигналов. Система демонстрирует высокую точность в задачах преобразования текста в речь, сохраняя естественную интонацию и эмоциональную окраску, а также поддерживает расширенные возможности обработки звуковых данных, что делает её эффективным инструментом для создания интерактивных голосовых интерфейсов и автоматизированных систем обработки аудиоконтента.

← Все материалы