Cloudflare обязала разработчиков ИИ-систем разделять трафик своих поисковых ботов и краулеров, предназначенных для обучения моделей. Владельцы сайтов, использующих инфраструктуру компании, теперь могут блокировать сбор данных для обучения ИИ, сохраняя при этом доступ для поисковых систем. Новые правила вступают в силу в ближайшее время, предоставляя владельцам ресурсов полный контроль над использованием их контента.

Этот шаг направлен на решение проблемы неконтролируемого сбора данных, который часто происходит без согласия правообладателей. Cloudflare предоставляет инструменты, позволяющие владельцам ресурсов одним кликом запретить доступ для ботов, которые занимаются парсингом контента для тренировки нейросетей. При этом поисковые системы, такие как Google или Bing, продолжат индексировать страницы для выдачи результатов поиска, если их краулеры не будут объединены с обучающими агентами.

Данная инициатива подчеркивает растущий конфликт между создателями ИИ-моделей и владельцами интеллектуальной собственности. Компании, занимающиеся разработкой генеративных моделей, вынуждены пересматривать свои подходы к сбору данных, чтобы избежать массовых блокировок со стороны крупных CDN-провайдеров и владельцев контента, обеспокоенных нарушением авторских прав и отсутствием компенсаций.

Ключевые факты

  • Cloudflare требует от разработчиков ИИ четко разделять ботов для индексации поиска и ботов для обучения моделей.
  • Владельцы сайтов получили возможность блокировать краулеры ИИ-компаний через панель управления Cloudflare.
  • Новые правила призваны защитить контент от несанкционированного использования в обучающих выборках.
  • Поисковые системы сохранят доступ к сайтам, если их краулеры не будут использоваться для обучения ИИ-моделей.
  • Решение принято на фоне участившихся споров между издателями контента и разработчиками ИИ-технологий.