Компания Interfaze выпустила open-source модель diffusion-gemma-asr-small, которая использует диффузионный подход вместо традиционной авторегрессии для транскрибации аудио. Решение базируется на замороженной архитектуре DiffusionGemma от Google и дополняется компактным адаптером. Инновация позволяет перевести процесс распознавания речи в параллельный формат, где стоимость вычислений зависит от количества шагов шумоподавления, а не от длительности аудиозаписи.
В основе модели лежит адаптер с 42 миллионами параметров, который интегрирует аудиоданные в предобученную архитектуру DiffusionGemma. Такой подход обеспечивает поддержку шести языков в рамках одной модели. Отказ от авторегрессионного декодирования решает проблему последовательной обработки данных, что потенциально ускоряет транскрибацию длинных аудиофайлов, так как время генерации становится фиксированным и предсказуемым.
Технология открывает новые возможности для оптимизации систем распознавания речи, особенно в задачах, где важна высокая скорость обработки при ограниченных вычислительных ресурсах. Использование диффузионных моделей в задачах ASR (Automatic Speech Recognition) представляет собой значимый сдвиг в архитектурных подходах к обработке аудио, позволяя эффективнее масштабировать системы транскрибации.
Ключевые факты
- Модель поддерживает транскрибацию на шести различных языках.
- Архитектура использует адаптер объемом около 42 млн параметров для интеграции с DiffusionGemma.
- Стоимость транскрибации определяется количеством шагов шумоподавления, а не длиной исходного текста.
- Модель работает по принципу параллельного декодирования, исключая последовательную авторегрессию.
