arXiv · 29.06.2026 ·Исследования и наука

LeVo 2: новый подход к генерации полноценных музыкальных композиций

Исследователи представили LeVo 2 — модель для генерации полноформатных песен, решающую проблему баланса между вокальной выразительностью и качеством инструментального сопровождения. Система использует иерархическое моделирование представлений и прогрессивное дообучение, что позволяет сохранять музыкальную связность и точно следовать заданным текстам и стилистическим промптам, преодолевая ограничения существующих языковых моделей в работе с многодорожечными аудиоданными.

Традиционные подходы к генерации музыки часто сталкиваются с компромиссом: либо смешанное моделирование токенов, которое упрощает координацию вокала и инструментов, но теряет детализацию треков, либо раздельное прогнозирование, требующее обработки чрезмерно длинных последовательностей. LeVo 2 внедряет иерархическую структуру, которая разделяет высокоуровневую музыкальную композицию и низкоуровневую акустическую детализацию, обеспечивая высокое качество звучания без потери темпа и гармонической структуры.

Процесс прогрессивного дообучения позволяет модели постепенно осваивать сложные музыкальные паттерны, начиная с базовых ритмических структур и переходя к тонким нюансам вокального исполнения. Это делает систему более устойчивой при создании длинных композиций, где критически важно удерживать общую тональность и логику развития трека от начала до конца, избегая деградации качества, характерной для стандартных авторегрессионных моделей.

Ключевые факты

LeVo 2 использует иерархическое моделирование для разделения вокальных и инструментальных слоев.
Метод прогрессивного дообучения минимизирует ошибки в длинных аудиопоследовательностях.
Архитектура обеспечивает улучшенную акустическую детализацию по сравнению с моделями на базе смешанных токенов.
Система поддерживает генерацию песен на основе текстовых промптов и заданных лирических текстов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы