The GitHub Blog · 15.06.2026 ·Модели и релизы

GitHub выпустил открытый датасет для обучения многоязычных моделей

GitHub представил новый открытый датасет, содержащий мультиязычный контент из репозиториев. Данные собраны из README, issues и pull requests и доступны под лицензией CC0-1.0.

Датасет включает тексты на более чем 30 языках, что позволяет исследователям и разработчикам улучшать многоязычные модели. GitHub отмечает, что это поможет в создании более точных и доступных ИИ-систем.

Сбор данных проводился с учётом конфиденциальности и безопасности. GitHub сотрудничал с экспертами для обеспечения качества и разнообразия контента. Датасет уже доступен для скачивания и использования.

Компания надеется, что этот ресурс ускорит разработку многоязычных моделей и расширит возможности ИИ для глобального сообщества.

Источник: The GitHub Blog

Обсудить с ИИ

Похожие материалы

Hacker News · Обучение и дообучение Новые датасеты для ML-исследований от ArXiv и Semantic Scholar Команда FineSet.io выпустила набор датасетов, собранных из ArXiv и Semantic Scholar. Эти датасеты представлены в формате JSONL и содержат оценки качества, что делает их полезными для исследователей и разработчиков в области машинного обучения. Together.ai · Безопасность и алайнмент CoderForge: новый датасет для обучения агентов-программистов Компания Together.ai представила CoderForge — новый открытый датасет, предназначенный для обучения ИИ-агентов, способных работать с кодом. В его основе лежат данные из реальных проектов, включая задачи по рефакторингу, отладке и оптимизации кода. Hacker News · ИИ в бизнесе GitHub обновляет доступ к моделям в планах Free и Student GitHub расширил возможности для пользователей бесплатных и студенческих подписок Copilot, предоставив выбор между несколькими передовыми языковыми моделями. Теперь разработчики могут переключаться между Claude 3.5 Sonnet от Anthropic, Gemini 1.5 Pro от Google и моделями семейства GPT-4o от OpenAI, что позволяет гибко подбирать инструмент под конкретные задачи программирования и архитектурные требования проекта. Hacker News · Исследования и наука Выпущен датасет Cybersecurity AI (CAI) для обучения моделей в сфере кибербезопасности Исследователи представили Cybersecurity AI (CAI) — специализированный набор данных, предназначенный для обучения и оценки языковых моделей в задачах кибербезопасности. Датасет включает структурированные примеры угроз, уязвимостей и сценариев защиты, что позволяет разработчикам точнее настраивать ИИ для автоматизированного анализа кода, обнаружения аномалий и реагирования на инциденты в реальных инфраструктурах. Hacker News · Модели и релизы Common Corpus: крупнейший набор данных для предобучения LLM Исследователи представили Common Corpus — крупнейший на сегодняшний день набор данных для предобучения языковых моделей. Проект включает более 1,5 триллиона токенов, собранных из открытых источников с соблюдением этических норм. Hacker News · Регулирование и политика Codeberg вводит механизмы защиты открытого кода от обучения ИИ-моделей Платформа Codeberg представила стратегию защиты открытого программного обеспечения от несанкционированного использования в обучении больших языковых моделей. Разработчики получили возможность добавлять специальные метаданные в свои репозитории, которые сигнализируют о запрете на парсинг кода для тренировки ИИ. Это решение направлено на сохранение контроля авторов над результатами их интеллектуального труда в условиях массового сбора данных. arXiv · Обучение и дообучение Новый датасет для улучшения аудио-языковых моделей Исследователи представили AudioDER — новый датасет, предназначенный для улучшения способностей аудио-языковых моделей (LALMs) к сложному аудио-рассуждению. LALMs уже демонстрируют высокие результаты в различных задачах понимания аудио, но их возможности в области сложного анализа и интерпретации звуковых данных остаются ограниченными. GitHub · Инференс и железо Apple открыла репозиторий с инструментами для локального ИИ Apple выпустила открытый репозиторий coreai-models на GitHub, который содержит рецепты экспорта моделей, Python-примитивы и утилиты для работы с ИИ на устройствах. Это значимый шаг, так как Apple активно продвигает локальные вычисления для ИИ, что особенно важно для разработчиков, работающих над автономными агентами. arXiv · Модели и релизы Influcoder: новый метод атрибуции данных для улучшения качества датасетов Исследователи представили метод Influcoder, который позволяет оценивать влияние отдельных данных на обучение языковых моделей. Это важно для создания качественных датасетов, так как позволяет выявлять и удалять вредоносные или нерелевантные данные. arXiv · Данные и инжиниринг Новый датасет для обучения LLM на финансовых отчётах Исследователи из Стэнфорда представили новый датасет для обучения языковых моделей. Stanford EDGAR Filings Dataset (SEFD) содержит финансовые отчёты компаний США, собранные из системы EDGAR SEC. Это первый крупный датасет, который включает структурированные и длинные документы с сохранением оригинального форматирования.

← Все материалы