MarkTechPost · 03.07.2026 ·Модели и релизы

Interfaze представила diffusion-gemma-asr-small: модель распознавания речи на базе диффузии

Компания Interfaze выпустила open-source модель diffusion-gemma-asr-small, которая использует диффузионный подход вместо традиционной авторегрессии для транскрибации аудио. Решение базируется на замороженной архитектуре DiffusionGemma от Google и дополняется компактным адаптером. Инновация позволяет перевести процесс распознавания речи в параллельный формат, где стоимость вычислений зависит от количества шагов шумоподавления, а не от длительности аудиозаписи.

В основе модели лежит адаптер с 42 миллионами параметров, который интегрирует аудиоданные в предобученную архитектуру DiffusionGemma. Такой подход обеспечивает поддержку шести языков в рамках одной модели. Отказ от авторегрессионного декодирования решает проблему последовательной обработки данных, что потенциально ускоряет транскрибацию длинных аудиофайлов, так как время генерации становится фиксированным и предсказуемым.

Технология открывает новые возможности для оптимизации систем распознавания речи, особенно в задачах, где важна высокая скорость обработки при ограниченных вычислительных ресурсах. Использование диффузионных моделей в задачах ASR (Automatic Speech Recognition) представляет собой значимый сдвиг в архитектурных подходах к обработке аудио, позволяя эффективнее масштабировать системы транскрибации.

Ключевые факты

Модель поддерживает транскрибацию на шести различных языках.
Архитектура использует адаптер объемом около 42 млн параметров для интеграции с DiffusionGemma.
Стоимость транскрибации определяется количеством шагов шумоподавления, а не длиной исходного текста.
Модель работает по принципу параллельного декодирования, исключая последовательную авторегрессию.

Источник: MarkTechPost

Обсудить с ИИ

Похожие материалы

← Все материалы