Hacker News · 20.06.2026 ·Регулирование и политика

Расследование Atlantic: миллионы песен использованы для обучения ИИ

Издание The Atlantic опубликовало результаты расследования, согласно которым для обучения нейросетей были использованы миллионы музыкальных композиций без явного согласия правообладателей. В выборку попали записи, защищенные авторским правом, которые применялись для тренировки моделей генерации аудио. Анализ показал, что в датасеты включались треки как независимых исполнителей, так и крупных лейблов, что ставит под вопрос текущие стандарты сбора данных для обучения ИИ.

Основная проблема заключается в использовании наборов данных, содержащих защищенный контент, для создания коммерческих продуктов. Авторы расследования указывают на непрозрачность процессов формирования обучающих выборок, где зачастую игнорируются права авторов на интеллектуальную собственность. Подобные практики вызывают обеспокоенность в музыкальной индустрии, так как созданные модели способны имитировать стиль и манеру исполнения конкретных артистов, что создает риски для их профессиональной деятельности.

Ситуация подчеркивает растущий конфликт между разработчиками технологий машинного обучения и представителями творческих профессий. В отсутствие четкого законодательного регулирования в области использования данных для обучения ИИ, правообладатели начинают активнее требовать прозрачности и компенсаций за использование их работ. Этот кейс становится важным прецедентом в дискуссии о границах добросовестного использования контента при создании генеративных моделей.

Источник: Hacker News

Похожие материалы

The Verge · Данные и инжиниринг The Atlantic открыл доступ к базе данных музыкальных треков для обучения ИИ Издание The Atlantic опубликовало поисковую базу данных, содержащую информацию о музыкальных композициях, которые использовались для обучения нейросетей. Журналист Алекс Рейснер проанализировал четыре крупных набора данных, которые ранее применялись разработчиками ИИ-моделей для генерации аудиоконтента. Hacker News · Регулирование и политика Правовые аспекты использования ИИ в свободном ПО Организация Software Freedom Conservancy опубликовала аналитический отчет, посвященный правовым и этическим вызовам, которые возникают при интеграции генеративного ИИ в экосистему свободного и открытого программного обеспечения (FOSS). Основное внимание уделено вопросам авторского права, лицензионной чистоты кода, созданного нейросетями, и ответственности за использование обучающих выборок, содержащих защищенные авторским правом материалы. Hacker News · Машинное обучение Ограничения обучения на знаниях LLM Исследование указывает на фундаментальную проблему при попытке дообучения моделей на основе их собственных ответов. Авторы анализируют, почему использование синтетических данных, сгенерированных самой нейросетью, часто приводит к деградации качества, а не к улучшению навыков. Основная сложность заключается в том, что модель при дообучении начинает воспроизводить собственные статистические ошибки и галлюцинации, закрепляя их как эталонные знания. Hacker News · Рынок труда и экономика Проблема масштабирования данных для обучения ИИ Аналитики указывают на фундаментальный барьер в развитии современных языковых моделей: нехватку качественных данных для обучения. Попытки компаний, включая Meta (признана экстремистской организацией, деятельность запрещена в РФ), привлекать штатных инженеров для ручной разметки и создания синтетических датасетов не решают проблему масштабируемости. Человеческий труд в этом процессе становится «узким горлышком», которое ограничивает скорость прогресса и делает разработку новых поколений моделей неоправданно дорогой. Hacker News · Другое Как Reddit может манипулировать результатами поиска ИИ Исследование, опубликованное на 404 Media, показало, что манипулирование результатами поиска ИИ с помощью Reddit — задача проще, чем кажется. Учёные продемонстрировали, что даже небольшие изменения в контенте Reddit могут существенно влиять на результаты поиска, генерируемые ИИ-моделями. Это открывает новые риски для достоверности информации, получаемой через ИИ-ассистентов и поисковые системы. Hacker News · Регулирование и политика Пересмотр положений европейского закона об ИИ Европейский союз внес существенные коррективы в финальную версию своего закона об искусственном интеллекте (AI Act). Основная цель пересмотра заключалась в поиске баланса между обеспечением безопасности граждан и сохранением конкурентоспособности европейских технологических компаний на мировом рынке. Законодатели стремились избежать чрезмерного регулирования, которое могло бы замедлить инновации, при этом сохранив жесткий контроль над системами с высоким уровнем риска. Hacker News · Бизнес и инвестиции Издатели требуют плату за скрейпинг или подают в суд Издатели начинают активно защищать свои данные от бесплатного скрейпинга со стороны компаний, разрабатывающих ИИ. Некоторые из них уже начали взимать плату за доступ к контенту, а другие угрожают судебными исками. arXiv · Исследования и наука Использование синтетических данных в научных исследованиях В последнее время наблюдается рост интереса к применению синтетических данных в научных исследованиях. Социальные науки, например, предлагают использовать "силиконовые образцы", сгенерированные языковыми моделями, для пилотных исследований. В области ИИ всё чаще применяются "судьи" на основе языковых моделей для оценки качества моделей. Даже в биоинформатике синтетические данные ускоряют исследования, например, в области протеомики. Hacker News · Память и RAG Ограничения доступа к знаниям после 12 июня 12 июня 2024 года вступают в силу новые ограничения на доступ к знаниям, которые могут существенно повлиять на развитие ИИ. В частности, речь идёт о запрете на использование определённых данных для обучения моделей, что может привести к снижению качества и точности ИИ-систем. Hacker News · Исследования и наука Проблема эффективности обучения моделей на ограниченных данных Современные методы обучения больших языковых моделей сталкиваются с проблемой «черной дыры» в эффективности выборки. Исследования показывают, что текущие подходы требуют колоссальных объемов данных для достижения прироста качества, который непропорционален затраченным вычислительным мощностям. При этом значительная часть доступных в интернете текстов уже была использована для тренировки, что создает дефицит качественных обучающих материалов для будущих поколений нейросетей.

← Все материалы