Hacker News · 17.06.2026 ·Модели и релизы

Common Corpus: крупнейший набор данных для предобучения LLM

Исследователи представили Common Corpus — крупнейший на сегодняшний день набор данных для предобучения языковых моделей. Проект включает более 1,5 триллиона токенов, собранных из открытых источников с соблюдением этических норм.

Данные прошли строгий отбор на предмет качества и разнообразия, что позволяет использовать их для обучения моделей с минимальными рисками. В набор вошли тексты из научных статей, новостей, технической документации и других источников.

Разработчики подчеркивают, что Common Corpus предназначен для ускорения исследований в области языковых моделей и снижения зависимости от проприетарных данных. Проект доступен для научного сообщества и может быть использован для обучения открытых моделей.

Инициатива поддерживается ведущими исследователями и организациями, что повышает её значимость для дальнейшего развития ИИ. Common Corpus уже используется в нескольких крупных проектах по созданию языковых моделей.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Инфраструктура для агентов Corpus Keeper — аудитор документов для ИИ без зависимостей Corpus Keeper — это инструмент для аудита документов, которые используются в ИИ-системах. Он позволяет проверять и анализировать содержимое, на которое направлены модели, без необходимости в дополнительных зависимостях. The GitHub Blog · Модели и релизы GitHub выпустил открытый датасет для обучения многоязычных моделей GitHub представил новый открытый датасет, содержащий мультиязычный контент из репозиториев. Данные собраны из README, issues и pull requests и доступны под лицензией CC0-1.0. Hacker News · Модели и релизы Bielik.ai: открытые языковые модели для польского и европейских языков Проект Bielik.ai представил серию открытых LLM, специально обученных для работы с польским и другими европейскими языками. Разработчики сфокусировались на преодолении разрыва в качестве генерации текста, который часто наблюдается у глобальных моделей при работе с менее распространенными языками, обеспечивая высокую точность грамматики, культурную релевантность и поддержку специфической лексики в рамках открытой экосистемы. Hacker News · Разработка и инструменты Библиотека навыков для повышения эффективности LLM Опубликован репозиторий с набором открытых инструментов и методик, направленных на улучшение качества выполнения задач языковыми моделями, такими как Claude и ChatGPT. Проект фокусируется на формализации «навыков» — структурированных промптов и алгоритмов действий, которые позволяют моделям переходить от генерации общих текстов к выполнению прикладных рабочих процессов. Hacker News · Исследования и наука Outside LLMs: анализ ограничений и альтернативных подходов в ИИ Проект Outside LLMs исследует пределы возможностей современных языковых моделей, анализируя задачи, где традиционные LLM показывают недостаточную эффективность. Авторы фокусируются на поиске альтернативных архитектурных решений и методов обработки данных, которые позволяют выйти за рамки стандартного предсказания следующего токена, предлагая более надежные подходы для сложных вычислительных и логических операций в реальных бизнес-сценариях. Hacker News · Разработка и инструменты Coloma: фреймворк для верификации и донастройки self-hosted LLM Coloma — это open-source решение для контроля качества ответов и донастройки локально развернутых языковых моделей. Инструмент позволяет внедрять слой верификации в пайплайны инференса, обеспечивая проверку выходных данных на соответствие заданным критериям и автоматическую корректировку поведения модели без необходимости полного переобучения, что критично для стабильной работы агентных систем. arXiv · Машинное обучение DenseOn и LateOn: открытые модели для поиска с длинным контекстом и поддержкой языков Исследователи представили DenseOn и LateOn — полностью открытые модели для семантического поиска, решающие проблему зависимости индустрии от закрытых данных. Авторы разработали комплексный пайплайн обучения, включающий 665 млн пар данных, и продемонстрировали эффективность переноса англоязычного обучения на многоязычные задачи, обеспечивая высокую точность в поиске по коду и длинным документам при полной воспроизводимости результатов. Hacker News · Разработка и инструменты OpenScience: платформа для научных исследований на базе кастомных LLM OpenScience — это специализированная программная среда, предназначенная для автоматизации научных исследований с помощью больших языковых моделей. Платформа позволяет исследователям интегрировать кастомные LLM в рабочий процесс, обеспечивая воспроизводимость экспериментов и структурированную обработку данных. Инструмент ориентирован на создание агентных систем, способных выполнять сложные аналитические задачи в рамках научной деятельности, минимизируя рутинные операции при работе с литературой и массивами данных. Hacker News · Оценка и бенчмарки Ежедневное слепое тестирование LLM на задачах суммаризации Автор проекта Snipvote запустил платформу для ежедневного сравнения ведущих языковых моделей в режиме слепого тестирования. Пользователи оценивают качество суммаризации одного и того же новостного текста шестью разными LLM, не зная, какая модель сгенерировала конкретный ответ. Такой подход позволяет собрать независимые данные о реальной эффективности моделей в прикладных задачах обработки естественного языка. Hacker News · Исследования и наука Анализ роста использования LLM в научных публикациях Исследователи проанализировали более 500 тысяч научных статей, опубликованных с 2020 по 2024 год, чтобы оценить масштаб внедрения языковых моделей в академическую среду. Результаты показывают экспоненциальный рост использования LLM для написания текстов, редактирования и анализа данных, что ставит новые вопросы о качестве научной литературы и прозрачности исследовательских процессов в различных дисциплинах.

← Все материалы