Издание The Atlantic опубликовало поисковую базу данных, содержащую информацию о музыкальных композициях, которые использовались для обучения нейросетей. Журналист Алекс Рейснер проанализировал четыре крупных набора данных, которые ранее применялись разработчиками ИИ-моделей для генерации аудиоконтента.
В представленном каталоге два крупнейших массива данных включают 12 миллионов и 9 миллионов треков соответственно. Остальные два набора значительно меньше по объему, однако также содержат существенное количество аудиоматериалов, ставших основой для обучения алгоритмов. Публикация этих данных позволяет исследователям и правообладателям оценить масштаб использования защищенного авторским правом контента в индустрии машинного обучения.
Создание подобного инструмента обеспечивает прозрачность в вопросах формирования обучающих выборок. Доступ к поиску по базе дает возможность проверить, какие именно композиции и исполнители были включены в датасеты, что является важным шагом в дискуссии о соблюдении авторских прав при создании генеративных моделей.
