GitHub представил новый открытый датасет, содержащий мультиязычный контент из репозиториев. Данные собраны из README, issues и pull requests и доступны под лицензией CC0-1.0.
Датасет включает тексты на более чем 30 языках, что позволяет исследователям и разработчикам улучшать многоязычные модели. GitHub отмечает, что это поможет в создании более точных и доступных ИИ-систем.
Сбор данных проводился с учётом конфиденциальности и безопасности. GitHub сотрудничал с экспертами для обеспечения качества и разнообразия контента. Датасет уже доступен для скачивания и использования.
Компания надеется, что этот ресурс ускорит разработку многоязычных моделей и расширит возможности ИИ для глобального сообщества.
