Исследователи представили метод ScenA, который позволяет создавать реалистичные многоголосые аудиосцены на основе текстовых описаний. В отличие от традиционных систем, которые работают с «чистой» речью и требуют жесткой привязки дикторов к репликам через метаданные, новая технология учитывает контекст реального окружения. Модель обучается на «диких» данных, что позволяет ей воспроизводить не только голоса нескольких спикеров, но и естественную акустическую текстуру диалога.
Ключевое отличие подхода заключается в использовании референсных аудиоданных для формирования сцены. Система анализирует внешние условия и фоновые шумы, интегрируя их в итоговый аудиопоток. Это позволяет уйти от синтетических, изолированных записей в сторону создания полноценных звуковых ландшафтов, где голоса органично вписаны в окружающую обстановку. Метод опирается на предварительно обученные модели, способные интерпретировать сложные аудиоконтексты из реальных записей.
Разработка решает проблему отсутствия естественности в современных диалоговых системах, где часто теряется связь между спикером и пространством. Использование референс-ориентированного подхода открывает возможности для создания более качественного контента в индустрии развлечений, виртуальной реальности и при разработке сложных симуляций, где критически важна акустическая достоверность и многослойность звуковой дорожки.