Компания Whissle представила новую ASR-модель, способную не только транскрибировать речь, но и анализировать эмоции и намерения говорящего. Это позволяет использовать её для более глубокого понимания контекста в реальном времени. Модель обрабатывает аудио за 200 миллисекунд, что делает её одной из самых быстрых на рынке.
Ключевое преимущество модели — её способность работать с несколькими языками, включая английский, испанский, французский и немецкий. Это делает её особенно полезной для глобальных приложений, где важно учитывать не только слова, но и тон и намерения говорящего.
Для разработчиков ИИ-агентов, таких как Jarv, эта технология может стать важным инструментом для улучшения взаимодействия с пользователями. Например, агент может не только понимать, что говорит пользователь, но и реагировать на его эмоциональное состояние, что делает общение более естественным и персонализированным.
Модель уже прошла тестирование на различных языках и показала высокую точность в распознавании эмоций и намерений. Это открывает новые возможности для интеграции в системы, где важна не только точность транскрипции, но и понимание контекста и эмоционального фона.