Исследователи представили SE-AGCNet — архитектуру для обработки аудио в режиме реального времени, которая объединяет задачи улучшения речи (Speech Enhancement) и автоматической регулировки усиления (AGC). В отличие от традиционных каскадных систем, где модули работают независимо, предложенный метод позволяет одновременно подавлять шумы и нормализовать уровень громкости, избегая артефактов и потери качества сигнала.

Традиционные аудио-пайплайны часто сталкиваются с конфликтом задач: предварительная регулировка усиления может привести к нежелательному увеличению громкости фонового шума, а приоритетное шумоподавление — к чрезмерному подавлению тихих голосов. Новый подход использует сквозное обучение, позволяя модели находить оптимальный баланс между чистотой звука и его амплитудными характеристиками, что критически важно для конференц-связи и систем распознавания речи.

Архитектура SE-AGCNet спроектирована для работы в сложных акустических условиях, характерных для совещаний, где присутствуют как стационарные, так и динамические шумы. Интеграция функций в единый фреймворк снижает вычислительную нагрузку по сравнению с раздельными модулями и повышает разборчивость речи в сценариях с переменным расстоянием говорящего от микрофона.

Ключевые факты

  • SE-AGCNet устраняет проблему последовательного конфликта между шумоподавлением и усилением сигнала.
  • Модель разработана специально для сценариев совещаний с высоким уровнем фонового шума.
  • Сквозной подход (end-to-end) позволяет избежать искажений, возникающих при независимой настройке параметров AGC и SE.
  • Метод оптимизирует разборчивость речи при динамических изменениях громкости входного аудиопотока.