Компания Gradium выпустила две специализированные модели — stt-translate и s2s-translate, предназначенные для высокоскоростного перевода устной речи. Разработчики оптимизировали архитектуру, сократив традиционный каскад из трех этапов до двух, что позволило добиться более низких показателей задержки и повышенной точности по сравнению с GPT-4o Realtime при работе с 20 языковыми парами.
Новые модели используют однопроходный процесс транскрипции и перевода, который интегрируется с фирменным движком синтеза речи (TTS) через дуплексное WebSocket-соединение. Такой подход минимизирует время ожидания, критически важное для сценариев живого общения, где задержка в несколько сотен миллисекунд может существенно влиять на качество коммуникации.
Технология ориентирована на приложения, требующие мгновенного отклика, такие как системы синхронного перевода, международные колл-центры и инструменты для видеоконференций. Переход от каскадной обработки к более компактным конвейерам позволяет снизить вычислительные затраты при сохранении высокой точности распознавания и передачи смысла в режиме реального времени.
Ключевые факты
- Модели поддерживают работу с английским, французским, немецким, испанским и португальским языками.
- Система охватывает 20 различных языковых пар для перевода в реальном времени.
- Архитектура сокращена до двух этапов: транскрипция-перевод и синтез речи.
- Взаимодействие с моделью происходит через единый дуплексный WebSocket-канал.
- Заявлено превосходство над GPT-4o Realtime по соотношению точности и задержки (latency).
