The Verge · 20.06.2026 ·Данные и инжиниринг

The Atlantic открыл доступ к базе данных музыкальных треков для обучения ИИ

The Atlantic открыл доступ к базе данных музыкальных треков для обучения ИИ

Издание The Atlantic опубликовало поисковую базу данных, содержащую информацию о музыкальных композициях, которые использовались для обучения нейросетей. Журналист Алекс Рейснер проанализировал четыре крупных набора данных, которые ранее применялись разработчиками ИИ-моделей для генерации аудиоконтента.

В представленном каталоге два крупнейших массива данных включают 12 миллионов и 9 миллионов треков соответственно. Остальные два набора значительно меньше по объему, однако также содержат существенное количество аудиоматериалов, ставших основой для обучения алгоритмов. Публикация этих данных позволяет исследователям и правообладателям оценить масштаб использования защищенного авторским правом контента в индустрии машинного обучения.

Создание подобного инструмента обеспечивает прозрачность в вопросах формирования обучающих выборок. Доступ к поиску по базе дает возможность проверить, какие именно композиции и исполнители были включены в датасеты, что является важным шагом в дискуссии о соблюдении авторских прав при создании генеративных моделей.

Источник: The Verge

Похожие материалы

The Decoder · Оценка и бенчмарки Сервис In the Weights анализирует глубину знаний ИИ о личностях Бывшие сотрудники OpenAI запустили платформу In the Weights, которая позволяет оценить, насколько глубоко информация о конкретных людях «зашита» в веса популярных языковых моделей. Инструмент анализирует способность нейросетей воспроизводить факты о личностях, основываясь исключительно на данных, полученных в процессе обучения. Пользователи могут проверить, как модель «помнит» того или иного человека, и увидеть соответствующий показатель силы связи. arXiv · Обучение и дообучение Новый датасет для улучшения аудио-языковых моделей Исследователи представили AudioDER — новый датасет, предназначенный для улучшения способностей аудио-языковых моделей (LALMs) к сложному аудио-рассуждению. LALMs уже демонстрируют высокие результаты в различных задачах понимания аудио, но их возможности в области сложного анализа и интерпретации звуковых данных остаются ограниченными. Hacker News · Обучение и дообучение Новые датасеты для ML-исследований от ArXiv и Semantic Scholar Команда FineSet.io выпустила набор датасетов, собранных из ArXiv и Semantic Scholar. Эти датасеты представлены в формате JSONL и содержат оценки качества, что делает их полезными для исследователей и разработчиков в области машинного обучения. The GitHub Blog · Модели и релизы GitHub выпустил открытый датасет для обучения многоязычных моделей GitHub представил новый открытый датасет, содержащий мультиязычный контент из репозиториев. Данные собраны из README, issues и pull requests и доступны под лицензией CC0-1.0. arXiv · Исследования и наука Новый подход к созданию синтетических данных для интерпретируемости нейросетей Исследователи представили новый метод генерации синтетических наборов данных, предназначенных для тестирования методов интерпретируемости нейронных сетей. Существующие синтетические датасеты часто не отражают сложную иерархическую структуру реальных данных, что ограничивает их применимость при оценке того, как именно модели обучаются распознавать признаки. Hacker News · Другое Как Reddit может манипулировать результатами поиска ИИ Исследование, опубликованное на 404 Media, показало, что манипулирование результатами поиска ИИ с помощью Reddit — задача проще, чем кажется. Учёные продемонстрировали, что даже небольшие изменения в контенте Reddit могут существенно влиять на результаты поиска, генерируемые ИИ-моделями. Это открывает новые риски для достоверности информации, получаемой через ИИ-ассистентов и поисковые системы. arXiv · Исследования и наука Использование синтетических данных в научных исследованиях В последнее время наблюдается рост интереса к применению синтетических данных в научных исследованиях. Социальные науки, например, предлагают использовать "силиконовые образцы", сгенерированные языковыми моделями, для пилотных исследований. В области ИИ всё чаще применяются "судьи" на основе языковых моделей для оценки качества моделей. Даже в биоинформатике синтетические данные ускоряют исследования, например, в области протеомики. Hacker News · Машинное обучение Новый подход к законам масштабирования может изменить обучение ИИ-моделей Исследователи из Стэнфордского университета предложили новый подход к законам масштабирования, который может существенно повлиять на процесс обучения искусственных нейронных сетей. Традиционные законы масштабирования описывают, как увеличение размера модели и объёма данных влияет на её производительность. Однако новый метод позволяет более точно предсказывать, как изменения в архитектуре модели и данных повлияют на её точность и эффективность. Hacker News · Модели и релизы Common Corpus: крупнейший набор данных для предобучения LLM Исследователи представили Common Corpus — крупнейший на сегодняшний день набор данных для предобучения языковых моделей. Проект включает более 1,5 триллиона токенов, собранных из открытых источников с соблюдением этических норм.

← Все материалы