arXiv · 17.06.2026 ·Исследования и наука

Новый метод генерации многоголосых аудиосцен ScenA

Исследователи представили метод ScenA, который позволяет создавать реалистичные многоголосые аудиосцены на основе текстовых описаний. В отличие от традиционных систем, которые работают с «чистой» речью и требуют жесткой привязки дикторов к репликам через метаданные, новая технология учитывает контекст реального окружения. Модель обучается на «диких» данных, что позволяет ей воспроизводить не только голоса нескольких спикеров, но и естественную акустическую текстуру диалога.

Ключевое отличие подхода заключается в использовании референсных аудиоданных для формирования сцены. Система анализирует внешние условия и фоновые шумы, интегрируя их в итоговый аудиопоток. Это позволяет уйти от синтетических, изолированных записей в сторону создания полноценных звуковых ландшафтов, где голоса органично вписаны в окружающую обстановку. Метод опирается на предварительно обученные модели, способные интерпретировать сложные аудиоконтексты из реальных записей.

Разработка решает проблему отсутствия естественности в современных диалоговых системах, где часто теряется связь между спикером и пространством. Использование референс-ориентированного подхода открывает возможности для создания более качественного контента в индустрии развлечений, виртуальной реальности и при разработке сложных симуляций, где критически важна акустическая достоверность и многослойность звуковой дорожки.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Анализ влияния текстовых инструкций на синтез речи в диффузионных моделях Исследователи представили метод интерпретации работы систем синтеза речи (TTS), управляемых текстовыми описаниями стиля. В современных моделях, использующих естественный язык для настройки характеристик голоса, долгое время оставалось неясным, какие именно слова в промпте определяют конкретные акустические параметры аудиовыхода. Понимание этой связи необходимо для диагностики ошибок генерации и повышения точности управления эмоциональной окраской речи. AI News & Artificial Intelligence | TechCrunch · Модели и релизы OpenAI представила новые голосовые модели для естественного общения в реальном времени OpenAI выпустила обновленные голосовые модели, способные одновременно слушать и говорить, что обеспечивает бесшовное взаимодействие в режиме реального времени. Технология значительно снижает задержки и позволяет модели улавливать эмоциональные нюансы речи, перебивать пользователя и мгновенно адаптироваться к контексту диалога, что критически важно для качественного синхронного перевода и естественного общения с ИИ-ассистентами. arXiv · Исследования и наука StoryTeller: новый подход к генерации аудиодескрипций для длинных видео Исследователи представили StoryTeller — метод генерации аудиодескрипций для длинных видео, не требующий дополнительного обучения моделей. В отличие от стандартных VLM, которые анализируют короткие фрагменты изолированно, StoryTeller сохраняет контекст сюжета, персонажей и их взаимосвязи на протяжении всего фильма. Это позволяет создавать связное повествование, необходимое для полноценного восприятия контента людьми с нарушениями зрения. Hacker News · Модели и релизы Новое поколение голосового взаимодействия в ChatGPT OpenAI представила обновленную технологию голосового общения для ChatGPT, обеспечивающую практически мгновенный отклик и способность распознавать эмоциональные оттенки в речи пользователя. Система переходит на мультимодальную архитектуру, позволяющую модели напрямую обрабатывать аудиопотоки, что значительно сокращает задержки и делает диалог более естественным, приближая его к человеческому общению в реальном времени. arXiv · Исследования и наука Audio-Native: распознавание речи через дискретные диффузионные модели Исследователи представили метод автоматического распознавания речи, основанный на дискретных диффузионных языковых моделях вместо традиционных авторегрессионных декодеров. В отличие от последовательной генерации токенов, новый подход позволяет уточнять транскрипцию целиком параллельно за несколько шагов шумоподавления. В качестве основы используется модель DiffusionGemma с 26 миллиардами параметров, адаптированная для работы с аудиоданными напрямую. arXiv · Машинное обучение AMR: новый метод адаптивной маршрутизации модальностей для идентификации спикеров Исследователи представили метод Adaptive Modality Routing (AMR), решающий проблемы идентификации спикеров в сложных условиях. Система эффективно работает при неполных данных, фоновом шуме и языковых различиях между этапами обучения и тестирования. Алгоритм динамически переключает приоритеты между аудио- и визуальными модальностями, что позволяет сохранять высокую точность распознавания даже в многопользовательских сценариях с перекрывающейся речью. arXiv · Исследования и наука MonoVoc: эффективная 3D-реконструкция сцен с открытым словарем Исследователи представили MonoVoc — метод для создания 3D-сцен с поддержкой семантического поиска по естественному языку на основе монокулярных данных. Решение разделяет геометрические и семантические признаки, что позволяет значительно снизить требования к памяти и вычислительным ресурсам при работе с 3D-гауссианами, устраняя необходимость в сложных многоракурсных съемках и длительной оптимизации под конкретные сцены. arXiv · Исследования и наука Новый метод иерархического моделирования для полнодуплексных речевых моделей Исследователи представили метод иерархического акустико-семантического моделирования (HASM), направленный на решение проблемы интерференции модальностей в полнодуплексных речевых моделях (SLM). Новый подход разделяет обработку акустических и семантических признаков, что позволяет значительно повысить когерентность речи и снизить деградацию знаний при одновременной обработке аудиопотока и текстовой семантики, обеспечивая более естественное и стабильное взаимодействие в реальном времени. arXiv · Машинное обучение Новый метод обучения речевых моделей без instruction tuning Исследователи представили метод, позволяющий речевым языковым моделям (SLM) следовать инструкциям без необходимости проведения дорогостоящего обучения с подкреплением или специфического instruction tuning. Авторы доказали, что композиционные способности моделей можно раскрыть через архитектурные оптимизации, избегая синтеза огромных массивов размеченных аудиоданных, что значительно упрощает адаптацию моделей для работы с голосовыми командами и сложными речевыми задачами. MarkTechPost · Модели и релизы NVIDIA представила Audex: мультимодальную модель для работы с аудио и текстом NVIDIA выпустила Audex (Nemotron-Labs-Audex-30B-A3B) — универсальную мультимодальную модель на архитектуре Mixture-of-Experts (MoE). Система объединяет возможности распознавания речи, перевода, синтеза звука и генерации текста. Ключевой особенностью стало сохранение высоких когнитивных способностей базовой модели Nemotron-Cascade-2 при минимальном снижении производительности в текстовых задачах, что делает её эффективным инструментом для комплексной обработки аудиовизуальных данных.

← Все материалы