Исследователи представили LeVo 2 — модель для генерации полноформатных песен, решающую проблему баланса между вокальной выразительностью и качеством инструментального сопровождения. Система использует иерархическое моделирование представлений и прогрессивное дообучение, что позволяет сохранять музыкальную связность и точно следовать заданным текстам и стилистическим промптам, преодолевая ограничения существующих языковых моделей в работе с многодорожечными аудиоданными.
Традиционные подходы к генерации музыки часто сталкиваются с компромиссом: либо смешанное моделирование токенов, которое упрощает координацию вокала и инструментов, но теряет детализацию треков, либо раздельное прогнозирование, требующее обработки чрезмерно длинных последовательностей. LeVo 2 внедряет иерархическую структуру, которая разделяет высокоуровневую музыкальную композицию и низкоуровневую акустическую детализацию, обеспечивая высокое качество звучания без потери темпа и гармонической структуры.
Процесс прогрессивного дообучения позволяет модели постепенно осваивать сложные музыкальные паттерны, начиная с базовых ритмических структур и переходя к тонким нюансам вокального исполнения. Это делает систему более устойчивой при создании длинных композиций, где критически важно удерживать общую тональность и логику развития трека от начала до конца, избегая деградации качества, характерной для стандартных авторегрессионных моделей.
Ключевые факты
- LeVo 2 использует иерархическое моделирование для разделения вокальных и инструментальных слоев.
- Метод прогрессивного дообучения минимизирует ошибки в длинных аудиопоследовательностях.
- Архитектура обеспечивает улучшенную акустическую детализацию по сравнению с моделями на базе смешанных токенов.
- Система поддерживает генерацию песен на основе текстовых промптов и заданных лирических текстов.