Издание The Atlantic опубликовало результаты расследования, согласно которым для обучения нейросетей были использованы миллионы музыкальных композиций без явного согласия правообладателей. В выборку попали записи, защищенные авторским правом, которые применялись для тренировки моделей генерации аудио. Анализ показал, что в датасеты включались треки как независимых исполнителей, так и крупных лейблов, что ставит под вопрос текущие стандарты сбора данных для обучения ИИ.
Основная проблема заключается в использовании наборов данных, содержащих защищенный контент, для создания коммерческих продуктов. Авторы расследования указывают на непрозрачность процессов формирования обучающих выборок, где зачастую игнорируются права авторов на интеллектуальную собственность. Подобные практики вызывают обеспокоенность в музыкальной индустрии, так как созданные модели способны имитировать стиль и манеру исполнения конкретных артистов, что создает риски для их профессиональной деятельности.
Ситуация подчеркивает растущий конфликт между разработчиками технологий машинного обучения и представителями творческих профессий. В отсутствие четкого законодательного регулирования в области использования данных для обучения ИИ, правообладатели начинают активнее требовать прозрачности и компенсаций за использование их работ. Этот кейс становится важным прецедентом в дискуссии о границах добросовестного использования контента при создании генеративных моделей.