NVIDIA представила обновленную модель Canary-1B-v2, предназначенную для решения задач автоматического распознавания речи (ASR) и машинного перевода. Модель демонстрирует высокую эффективность в обработке многоязычных аудиопотоков, позволяя переводить устную речь с английского языка на французский, немецкий, испанский и итальянский с сохранением временных меток для каждого слова и сегмента.
Техническая реализация пайплайна на Python включает предварительную подготовку аудиоданных, приведение их к формату 16 кГц моно и последующую обработку на GPU. Инструмент позволяет автоматизировать создание субтитров, экспортируя результаты непосредственно в формат SRT. Это решение упрощает работу с длинными аудиозаписями и пакетную обработку контента, что критически важно для локализации медиаматериалов и создания доступной среды в корпоративных коммуникациях.
Использование подобных моделей позволяет компаниям сократить расходы на ручную транскрипцию и перевод видеоконтента. Благодаря возможности точного позиционирования текста во времени, интеграция Canary-1B-v2 в существующие рабочие процессы дает возможность создавать качественные субтитры в реальном времени или в рамках пакетной обработки данных, минимизируя участие человека в рутинных операциях по подготовке контента.
