Исследователи подтвердили, что популярные модели генерации музыки обучались на миллионах защищенных авторским правом композиций без согласия правообладателей. Анализ датасетов выявил наличие метаданных, указывающих на прямое копирование музыкальных произведений из стриминговых сервисов. Это открытие становится ключевым аргументом в текущих судебных разбирательствах между музыкальной индустрией и разработчиками генеративных систем, ставя под вопрос легальность методов сбора данных.

Технический анализ датасетов, используемых для тренировки нейросетей, показал, что в них содержатся не только фрагменты, но и полные записи популярных артистов. Ранее разработчики ИИ-моделей утверждали, что их системы обучаются на очищенных от авторских прав данных или используют принципы добросовестного использования. Однако обнаруженные следы метаданных и специфических аудио-отпечатков опровергают эти заявления, демонстрируя масштабное использование интеллектуальной собственности без лицензирования.

Ситуация создает серьезный прецедент для всего рынка генеративного контента. Если суды признают использование данных нарушением, разработчикам придется либо выплачивать компенсации правообладателям, либо полностью пересматривать подходы к формированию обучающих выборок. Это может привести к замедлению темпов развития моделей и необходимости создания прозрачных механизмов лицензирования контента для обучения ИИ.

Ключевые факты

  • В обучающих выборках обнаружены миллионы композиций, защищенных авторским правом.
  • Анализ подтвердил наличие метаданных, прямо указывающих на происхождение аудиофайлов из коммерческих музыкальных библиотек.
  • Исследование ставит под сомнение аргумент о «добросовестном использовании» (fair use), который часто используют разработчики ИИ.
  • Полученные доказательства станут основой для новых исков со стороны музыкальных лейблов и ассоциаций авторов.
  • Результаты анализа подчеркивают отсутствие прозрачности в процессах сбора данных для обучения современных генеративных моделей.