Hacker News · 15.06.2026 ·Память и RAG

ASR-модель распознаёт не только слова, но и эмоции и намерения

Компания Whissle представила новую ASR-модель, способную не только транскрибировать речь, но и анализировать эмоции и намерения говорящего. Это позволяет использовать её для более глубокого понимания контекста в реальном времени. Модель обрабатывает аудио за 200 миллисекунд, что делает её одной из самых быстрых на рынке.

Ключевое преимущество модели — её способность работать с несколькими языками, включая английский, испанский, французский и немецкий. Это делает её особенно полезной для глобальных приложений, где важно учитывать не только слова, но и тон и намерения говорящего.

Для разработчиков ИИ-агентов, таких как Jarv, эта технология может стать важным инструментом для улучшения взаимодействия с пользователями. Например, агент может не только понимать, что говорит пользователь, но и реагировать на его эмоциональное состояние, что делает общение более естественным и персонализированным.

Модель уже прошла тестирование на различных языках и показала высокую точность в распознавании эмоций и намерений. Это открывает новые возможности для интеграции в системы, где важна не только точность транскрипции, но и понимание контекста и эмоционального фона.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение LEAF-X: новый фреймворк для объяснения работы трансформеров в ASR Исследователи из MIT и других университетов представили LEAF-X — фреймворк для объяснения работы трансформерных моделей автоматического распознавания речи (ASR), таких как Whisper. Эти модели демонстрируют высокую точность, но их предсказания остаются «чёрными ящиками». Существующие методы объяснения ИИ (XAI) часто страдают от несоответствия между объяснениями и реальной работой модели, а также от отсутствия точной временной привязки. AI News & Artificial Intelligence | TechCrunch · Модели и релизы OpenAI представила новые голосовые модели для естественного общения в реальном времени OpenAI выпустила обновленные голосовые модели, способные одновременно слушать и говорить, что обеспечивает бесшовное взаимодействие в режиме реального времени. Технология значительно снижает задержки и позволяет модели улавливать эмоциональные нюансы речи, перебивать пользователя и мгновенно адаптироваться к контексту диалога, что критически важно для качественного синхронного перевода и естественного общения с ИИ-ассистентами. The Decoder · Модели и релизы Cohere выпустила открытую модель Transcribe Arabic для распознавания арабской речи Компания Cohere представила Transcribe Arabic — специализированную модель с открытым исходным кодом, предназначенную для высокоточного распознавания арабской речи. Решение ориентировано на работу с диалектами, смешанной арабо-английской речью и переключением кодов, демонстрируя превосходство над существующими аналогами, такими как Whisper и OmniASR, в сложных лингвистических условиях. MarkTechPost · Инфраструктура для агентов PolyAI представила Dialog-RSN-1: аудио-нативную модель для диалоговых систем Компания PolyAI выпустила Dialog-RSN-1 — специализированную модель, которая обрабатывает аудиосигнал напрямую, минуя транскрипцию ASR. Решение объединяет функции распознавания речи, управления очередностью реплик и вызова внешних инструментов в едином контуре. Модель работает по запросному принципу, обеспечивая низкую задержку отклика, что критически важно для создания отзывчивых голосовых ИИ-агентов в клиентском сервисе. Hacker News · Модели и релизы Вышла первая open-source диффузионная модель для распознавания речи Команда Interfaze представила первую модель автоматического распознавания речи (ASR), построенную на архитектуре диффузии с открытым исходным кодом. В отличие от традиционных трансформеров, использующих авторегрессионный подход, новая модель генерирует транскрипцию через итеративное уточнение данных. Это позволяет достичь высокой точности распознавания при работе с аудиосигналами, открывая новые возможности для развития систем обработки естественного языка. Together.ai · Инференс и железо Together AI создала самый быстрый стек для распознавания речи Together AI представила решение для распознавания речи (ASR), которое, по их заявлению, является самым быстрым в мире. Компания подчеркивает, что подход к ASR рассматривался как задача полного пути системы, а не только как проблема инференса на GPU. MarkTechPost · Модели и релизы Обзор лучших open-weight моделей распознавания речи (ASR) в 2026 году В 2026 году рынок моделей распознавания речи (ASR) перестал зависеть от доминирования Whisper. Новые решения, такие как Cohere Transcribe, IBM Granite Speech 4.1, ARK-ASR и MOSS-Transcribe, демонстрируют сопоставимую точность, различаясь менее чем на один процентный пункт по метрике WER. Это делает выбор модели зависимым не от лидерства в рейтингах, а от специфических бизнес-задач, лицензий и задержек. MarkTechPost · Модели и релизы Interfaze представила diffusion-gemma-asr-small: модель распознавания речи на базе диффузии Компания Interfaze выпустила open-source модель diffusion-gemma-asr-small, которая использует диффузионный подход вместо традиционной авторегрессии для транскрибации аудио. Решение базируется на замороженной архитектуре DiffusionGemma от Google и дополняется компактным адаптером. Инновация позволяет перевести процесс распознавания речи в параллельный формат, где стоимость вычислений зависит от количества шагов шумоподавления, а не от длительности аудиозаписи. Hacker News · Модели и релизы Новое поколение голосового взаимодействия в ChatGPT OpenAI представила обновленную технологию голосового общения для ChatGPT, обеспечивающую практически мгновенный отклик и способность распознавать эмоциональные оттенки в речи пользователя. Система переходит на мультимодальную архитектуру, позволяющую модели напрямую обрабатывать аудиопотоки, что значительно сокращает задержки и делает диалог более естественным, приближая его к человеческому общению в реальном времени. Hacker News · Модели и релизы Релиз компактной модели для транскрибации китайского языка Разработчики представили специализированную модель для распознавания речи на китайском языке с параметрами 150 млн. Решение ориентировано на высокую скорость работы и оптимизировано для задач транскрибации в реальном времени. Ключевой особенностью системы является встроенная функция автоматического определения метаданных, что позволяет извлекать контекстную информацию непосредственно в процессе обработки аудиопотока.

← Все материалы