GitHub · 23.06.2026 ·Инференс и железо

Вышел audio.cpp — высокопроизводительный движок для запуска аудиомоделей на C++

Проект audio.cpp представляет собой универсальный движок для инференса аудиомоделей, написанный на чистом C++ с использованием библиотеки ggml. Инструмент позволяет запускать задачи TTS, STT, VAD, генерации музыки и конвертации голоса без необходимости использования Python-стека. Решение ориентировано на максимальную оптимизацию производительности и легкую интеграцию в нативные приложения, требующие работы с аудио в реальном времени.

Архитектура движка построена вокруг принципов минимализма и высокой скорости выполнения, что делает его подходящим для встраиваемых систем и десктопных приложений. Отказ от Python-зависимостей упрощает процесс развертывания и снижает накладные расходы при выполнении моделей на стороне клиента. Разработчики получают прямой доступ к управлению ресурсами, что критически важно для обработки аудиопотоков с низкой задержкой.

Использование ggml обеспечивает поддержку широкого спектра аппаратных конфигураций, включая CPU-инференс с высокой степенью оптимизации. Это позволяет запускать современные нейросетевые модели для работы с голосом и звуком на устройствах с ограниченными вычислительными мощностями, сохраняя при этом качество обработки, сопоставимое с тяжелыми фреймворками.

Ключевые факты

Полная реализация на C++ без внешних зависимостей от Python-библиотек.
Использование библиотеки ggml в качестве основы для высокопроизводительных вычислений.
Поддержка широкого спектра задач: синтез речи (TTS), распознавание (STT), детекция активности (VAD), генерация музыки и изменение голоса.
Ориентация на низкую задержку и оптимизацию для работы в нативных средах.

Источник: GitHub

Обсудить с ИИ

Похожие материалы

Hacker News · Инференс и железо Transcribe.cpp: высокопроизводительный движок для локального распознавания речи Проект Transcribe.cpp представляет собой легковесный движок для инференса моделей распознавания речи, построенный на базе библиотеки ggml. Инструмент позволяет запускать транскрибацию аудио в текст локально на потребительском оборудовании, обеспечивая высокую скорость обработки без необходимости обращения к облачным API. Решение ориентировано на разработчиков, которым требуется интеграция функций Speech-to-Text в автономные агентные системы и локальные приложения. Hacker News · Инфраструктура для агентов Универсальный SDK для работы с голосовыми ИИ-платформами без привязки к вендору Разработчики представили open-source SDK, который позволяет интегрировать голосовые ИИ-решения от Vapi и Retell через единый интерфейс. Инструмент решает проблему vendor lock-in, абстрагируя специфические API провайдеров. Это упрощает переключение между сервисами или их одновременное использование в рамках одной инфраструктуры, обеспечивая гибкость при масштабировании агентных систем и голосовых ассистентов. Hacker News · Инференс и железо Mozilla представила Transcribe.cpp для локальной транскрибации речи Mozilla выпустила Transcribe.cpp — легковесную библиотеку на C++, предназначенную для локального преобразования речи в текст. Инструмент базируется на модели Whisper от OpenAI и оптимизирован для работы на CPU, обеспечивая высокую производительность без необходимости использования облачных API или тяжелых GPU-зависимых фреймворков, что упрощает интеграцию речевых технологий в приватные и автономные приложения. Lobsters · Инфраструктура для агентов Создание полностью локального голосового ассистента Развернута архитектура для работы голосового помощника, функционирующего полностью на локальных мощностях без обращения к облачным API. Система объединяет несколько независимых компонентов: модуль распознавания речи (STT), движок обработки естественного языка (LLM) и синтез речи (TTS). В качестве основы для обработки запросов используется локально запущенная языковая модель, которая обеспечивает приватность данных и независимость от внешних сервисов. Hacker News · Инференс и железо ZeroLabs: локальный инференс для клонирования голоса с открытыми моделями Проект ZeroLabs предлагает альтернативу облачным сервисам для синтеза речи, позволяя запускать клонирование голоса локально на собственном оборудовании. Решение использует открытые модели, что исключает затраты на API и подписки. Инструмент ориентирован на разработчиков и пользователей, которым требуется высокая производительность при работе с аудио без передачи данных на сторонние серверы и ограничений по количеству запросов. Hacker News · Модели и релизы Релиз компактной модели для транскрибации китайского языка Разработчики представили специализированную модель для распознавания речи на китайском языке с параметрами 150 млн. Решение ориентировано на высокую скорость работы и оптимизировано для задач транскрибации в реальном времени. Ключевой особенностью системы является встроенная функция автоматического определения метаданных, что позволяет извлекать контекстную информацию непосредственно в процессе обработки аудиопотока. MarkTechPost · Модели и релизы Interfaze представила diffusion-gemma-asr-small: модель распознавания речи на базе диффузии Компания Interfaze выпустила open-source модель diffusion-gemma-asr-small, которая использует диффузионный подход вместо традиционной авторегрессии для транскрибации аудио. Решение базируется на замороженной архитектуре DiffusionGemma от Google и дополняется компактным адаптером. Инновация позволяет перевести процесс распознавания речи в параллельный формат, где стоимость вычислений зависит от количества шагов шумоподавления, а не от длительности аудиозаписи. Hacker News · Инференс и железо Whissle Gateway: мультимодальный голосовой ИИ в 500 МБ Команда Whissle представила Whissle Gateway — локальный Docker-контейнер для мультимодального голосового ИИ. Размер образа составляет всего 500 МБ, что делает его одним из самых компактных решений для локального развёртывания. Hugging Face - Blog · Инференс и железо Hugging Face и Cerebras ускорили работу Gemma 2 для голосовых ИИ-систем Hugging Face совместно с Cerebras оптимизировали работу модели Gemma 2 для задач голосового взаимодействия в реальном времени. Благодаря использованию специализированных вычислительных систем Cerebras Inference, удалось добиться сверхнизкой задержки генерации токенов. Это решение позволяет создавать отзывчивые голосовые интерфейсы, работающие со скоростью человеческой речи, что критически важно для агентных систем и интерактивных сервисов. MarkTechPost · Модели и релизы Gradium представила модели для перевода речи в реальном времени Компания Gradium выпустила две специализированные модели — stt-translate и s2s-translate, предназначенные для высокоскоростного перевода устной речи. Разработчики оптимизировали архитектуру, сократив традиционный каскад из трех этапов до двух, что позволило добиться более низких показателей задержки и повышенной точности по сравнению с GPT-4o Realtime при работе с 20 языковыми парами.

← Все материалы