Исследователи представили Common Corpus — крупнейший на сегодняшний день набор данных для предобучения языковых моделей. Проект включает более 1,5 триллиона токенов, собранных из открытых источников с соблюдением этических норм.
Данные прошли строгий отбор на предмет качества и разнообразия, что позволяет использовать их для обучения моделей с минимальными рисками. В набор вошли тексты из научных статей, новостей, технической документации и других источников.
Разработчики подчеркивают, что Common Corpus предназначен для ускорения исследований в области языковых моделей и снижения зависимости от проприетарных данных. Проект доступен для научного сообщества и может быть использован для обучения открытых моделей.
Инициатива поддерживается ведущими исследователями и организациями, что повышает её значимость для дальнейшего развития ИИ. Common Corpus уже используется в нескольких крупных проектах по созданию языковых моделей.