arXiv · 24.06.2026 ·Исследования и наука

SE-AGCNet: объединение улучшения речи и контроля громкости в единую нейросеть

Исследователи представили SE-AGCNet — архитектуру для обработки аудио в режиме реального времени, которая объединяет задачи улучшения речи (Speech Enhancement) и автоматической регулировки усиления (AGC). В отличие от традиционных каскадных систем, где модули работают независимо, предложенный метод позволяет одновременно подавлять шумы и нормализовать уровень громкости, избегая артефактов и потери качества сигнала.

Традиционные аудио-пайплайны часто сталкиваются с конфликтом задач: предварительная регулировка усиления может привести к нежелательному увеличению громкости фонового шума, а приоритетное шумоподавление — к чрезмерному подавлению тихих голосов. Новый подход использует сквозное обучение, позволяя модели находить оптимальный баланс между чистотой звука и его амплитудными характеристиками, что критически важно для конференц-связи и систем распознавания речи.

Архитектура SE-AGCNet спроектирована для работы в сложных акустических условиях, характерных для совещаний, где присутствуют как стационарные, так и динамические шумы. Интеграция функций в единый фреймворк снижает вычислительную нагрузку по сравнению с раздельными модулями и повышает разборчивость речи в сценариях с переменным расстоянием говорящего от микрофона.

Ключевые факты

SE-AGCNet устраняет проблему последовательного конфликта между шумоподавлением и усилением сигнала.
Модель разработана специально для сценариев совещаний с высоким уровнем фонового шума.
Сквозной подход (end-to-end) позволяет избежать искажений, возникающих при независимой настройке параметров AGC и SE.
Метод оптимизирует разборчивость речи при динамических изменениях громкости входного аудиопотока.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука Новая архитектура для ускорения генеративного улучшения речи Исследователи представили архитектуру для улучшения качества речи, основанную на методе Flow Matching. В отличие от традиционных U-Net моделей, новый подход исключает пропускные соединения (skip-connections) и использует выравнивание латентных представлений. Это позволяет значительно сократить количество итераций при генерации, обеспечивая высокую скорость обработки, необходимую для работы систем в режиме реального времени. arXiv · Машинное обучение Новый метод адаптивного кодирования речи для импульсных нейронных сетей Исследователи представили метод адаптивного кодирования аудиосигналов для импульсных нейронных сетей (SNN). Основная проблема существующих систем заключается в несовпадении непрерывных акустических данных и дискретной природы импульсной обработки. Традиционные подходы используют фиксированные энкодеры, из-за чего нейросети вынуждены компенсировать неоптимальное представление входных данных, что снижает эффективность распознавания речи. arXiv · Исследования и наука Новый метод генерации многоголосых аудиосцен ScenA Исследователи представили метод ScenA, который позволяет создавать реалистичные многоголосые аудиосцены на основе текстовых описаний. В отличие от традиционных систем, которые работают с «чистой» речью и требуют жесткой привязки дикторов к репликам через метаданные, новая технология учитывает контекст реального окружения. Модель обучается на «диких» данных, что позволяет ей воспроизводить не только голоса нескольких спикеров, но и естественную акустическую текстуру диалога. arXiv · Оценка и бенчмарки SpeechEQ: новый бенчмарк для оценки эмоционального интеллекта голосовых ИИ Исследователи представили SpeechEQ — специализированный бенчмарк для оценки эмоционального интеллекта в мультимодальных голосовых моделях. В отличие от существующих тестов, анализирующих только текст или акустику по отдельности, SpeechEQ фокусируется на кросс-модальном понимании паралингвистических сигналов. Это позволяет точнее измерять способность ИИ распознавать социальные нюансы и контекст в живом диалоге, что критически важно для естественного взаимодействия. Hacker News · Исследования и наука Технологический прорыв DeepSeek в архитектуре нейросетей Китайская исследовательская лаборатория DeepSeek представила архитектуру, которая существенно меняет подход к обучению и работе крупных языковых моделей. В основе решения лежит использование архитектуры Mixture-of-Experts (MoE) с глубокой оптимизацией процесса активации параметров. Вместо того чтобы задействовать всю нейросеть целиком для каждого запроса, система активирует лишь малую часть весов, что позволяет радикально снизить вычислительные затраты при сохранении высокой точности ответов. arXiv · Машинное обучение Новый метод управления генерацией речи через классификаторы Исследователи представили метод оптимизации генерации речи с помощью диффузионных моделей, который позволяет отказаться от обучения специализированных классификаторов для управления процессом. Традиционный подход к направленной генерации (classifier guidance) требует одновременного использования двух отдельных моделей: диффузионной и классификатора, обученного на зашумленных данных. Это усложняет архитектуру и увеличивает вычислительные затраты при развертывании систем синтеза. Hacker News · Инфраструктура для агентов Почему WebRTC эффективнее WebSockets для голосовых ИИ-агентов Для создания систем голосового ИИ в реальном времени выбор протокола передачи данных становится критическим фактором. Традиционные WebSockets, работающие поверх протокола TCP, сталкиваются с проблемой задержек из-за механизмов контроля перегрузки и повторной передачи пакетов. В условиях потоковой передачи аудио, где важна минимальная латентность, ожидание потерянного пакета приводит к заметным паузам и деградации качества взаимодействия с пользователем. Lobsters · Инфраструктура для агентов Создание полностью локального голосового ассистента Развернута архитектура для работы голосового помощника, функционирующего полностью на локальных мощностях без обращения к облачным API. Система объединяет несколько независимых компонентов: модуль распознавания речи (STT), движок обработки естественного языка (LLM) и синтез речи (TTS). В качестве основы для обработки запросов используется локально запущенная языковая модель, которая обеспечивает приватность данных и независимость от внешних сервисов. Hacker News · Инфраструктура для агентов SDK для обработки групповых диалогов в голосовых ИИ-системах Разработчики представили специализированный SDK, предназначенный для решения одной из ключевых проблем голосовых ИИ-ассистентов — участия в групповых разговорах. Инструмент позволяет системе корректно определять, к кому именно обращается пользователь, и отсекать фоновые шумы или разговоры других участников беседы, которые не адресованы агенту. Это критически важная задача для создания естественного взаимодействия в реальных условиях, где ИИ часто теряется при наличии нескольких источников звука. arXiv · Инфраструктура для агентов AdaSR: адаптивное потоковое рассуждение для динамических сценариев Исследователи из MIT и Google Research представили AdaSR — фреймворк для адаптивного потокового рассуждения, который позволяет ИИ-моделям обрабатывать динамические данные, такие как аудио- и видеопотоки. В отличие от традиционных подходов, где модели анализируют статичный контекст, AdaSR работает с частичными наблюдениями, обновляя свои выводы по мере поступления новой информации.

← Все материалы