MarkTechPost · 24.06.2026 ·Модели и релизы

Gradium представила модели для перевода речи в реальном времени

Компания Gradium выпустила две специализированные модели — stt-translate и s2s-translate, предназначенные для высокоскоростного перевода устной речи. Разработчики оптимизировали архитектуру, сократив традиционный каскад из трех этапов до двух, что позволило добиться более низких показателей задержки и повышенной точности по сравнению с GPT-4o Realtime при работе с 20 языковыми парами.

Новые модели используют однопроходный процесс транскрипции и перевода, который интегрируется с фирменным движком синтеза речи (TTS) через дуплексное WebSocket-соединение. Такой подход минимизирует время ожидания, критически важное для сценариев живого общения, где задержка в несколько сотен миллисекунд может существенно влиять на качество коммуникации.

Технология ориентирована на приложения, требующие мгновенного отклика, такие как системы синхронного перевода, международные колл-центры и инструменты для видеоконференций. Переход от каскадной обработки к более компактным конвейерам позволяет снизить вычислительные затраты при сохранении высокой точности распознавания и передачи смысла в режиме реального времени.

Ключевые факты

Модели поддерживают работу с английским, французским, немецким, испанским и португальским языками.
Система охватывает 20 различных языковых пар для перевода в реальном времени.
Архитектура сокращена до двух этапов: транскрипция-перевод и синтез речи.
Взаимодействие с моделью происходит через единый дуплексный WebSocket-канал.
Заявлено превосходство над GPT-4o Realtime по соотношению точности и задержки (latency).

Источник: MarkTechPost

Обсудить с ИИ

Похожие материалы

← Все материалы