Hacker News · 16.06.2026 ·Обучение и дообучение

Новые датасеты для ML-исследований от ArXiv и Semantic Scholar

Команда FineSet.io выпустила набор датасетов, собранных из ArXiv и Semantic Scholar. Эти датасеты представлены в формате JSONL и содержат оценки качества, что делает их полезными для исследователей и разработчиков в области машинного обучения.

Датасеты включают в себя научные статьи, аннотации и метаданные, что может быть полезно для задач, связанных с обработкой естественного языка (NLP) и анализом научных публикаций. Каждый датасет прошёл процедуру оценки качества, что позволяет пользователям выбирать наиболее релевантные данные для своих задач.

Эти датасеты могут быть использованы для обучения и тестирования моделей, работающих с научными текстами. Например, они могут быть полезны для создания систем, которые автоматически анализируют и суммируют научные статьи, что является важным направлением в разработке ИИ-агентов.

Датасеты доступны на платформе Hugging Face, что обеспечивает удобный доступ и интеграцию с существующими инструментами и библиотеками. Это делает их доступными для широкого круга пользователей, включая как исследователей, так и разработчиков, работающих над созданием ИИ-агентов и других систем на основе машинного обучения.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

The GitHub Blog · Модели и релизы GitHub выпустил открытый датасет для обучения многоязычных моделей GitHub представил новый открытый датасет, содержащий мультиязычный контент из репозиториев. Данные собраны из README, issues и pull requests и доступны под лицензией CC0-1.0. arXiv · Оценка и бенчмарки MetaSyn: новый датасет для тестирования ИИ-агентов на мета-анализах Исследователи представили новый датасет MetaSyn, предназначенный для оценки способностей ИИ-агентов проводить мета-анализ — сложный процесс синтеза данных, включающий поиск литературы, отбор исследований и статистический анализ. Этот процесс требует системного и проверяемого подхода, что делает его идеальным для тестирования научного мышления агентов. arXiv · Обучение и дообучение Новый датасет для улучшения аудио-языковых моделей Исследователи представили AudioDER — новый датасет, предназначенный для улучшения способностей аудио-языковых моделей (LALMs) к сложному аудио-рассуждению. LALMs уже демонстрируют высокие результаты в различных задачах понимания аудио, но их возможности в области сложного анализа и интерпретации звуковых данных остаются ограниченными. arXiv · Исследования и наука Новый подход к отбору данных для суммаризации научных текстов Исследователи представили метод повышения качества обучения моделей для суммаризации длинных научных документов. Авторы работы доказали, что использование всех доступных аннотаций от авторов статей не всегда эффективно из-за их неоднородного качества. Предложенный алгоритм фильтрации данных позволяет отбирать наиболее релевантные примеры, что значительно улучшает точность генерации кратких изложений для моделей с длинным контекстным окном. Hacker News · Данные и инжиниринг Запущен интерактивный атлас наборов данных для обучения ИИ Проект DELN представил интерактивный атлас, систематизирующий ключевые наборы данных, которые используются для обучения современных нейросетевых моделей. Ресурс позволяет визуализировать структуру и состав датасетов, помогая исследователям и разработчикам лучше понимать источники информации, на которых базируются алгоритмы машинного обучения. arXiv · Машинное обучение Новый датасет для обнаружения кибератак с метками ATT&CK Исследователи представили новый датасет для обнаружения многоэтапных кибератак, который включает логи систем, сетей и браузеров. Существующие публичные датасеты, такие как CICIDS и UNSW-NB15, охватывают только сетевую активность, в то время как другие, например LMDG, фокусируются на хост-активности. Together.ai · Безопасность и алайнмент CoderForge: новый датасет для обучения агентов-программистов Компания Together.ai представила CoderForge — новый открытый датасет, предназначенный для обучения ИИ-агентов, способных работать с кодом. В его основе лежат данные из реальных проектов, включая задачи по рефакторингу, отладке и оптимизации кода. Hacker News · Оценка и бенчмарки Датасет Forensic Refusal для анализа отказов ИИ-моделей Hugging Face опубликовал датасет Forensic Refusal, предназначенный для глубокого анализа поведения LLM при получении провокационных запросов. Набор данных содержит структурированные примеры отказов моделей, позволяя исследователям изучать механизмы безопасности, границы допустимого контента и причины возникновения ложноположительных срабатываний систем фильтрации, что критически важно для настройки алайнмента современных языковых моделей. Hacker News · Исследования и наука Выпущен датасет Cybersecurity AI (CAI) для обучения моделей в сфере кибербезопасности Исследователи представили Cybersecurity AI (CAI) — специализированный набор данных, предназначенный для обучения и оценки языковых моделей в задачах кибербезопасности. Датасет включает структурированные примеры угроз, уязвимостей и сценариев защиты, что позволяет разработчикам точнее настраивать ИИ для автоматизированного анализа кода, обнаружения аномалий и реагирования на инциденты в реальных инфраструктурах. Hacker News · Машинное обучение Autodata: агентный подход к генерации высококачественных синтетических данных Исследователи представили Autodata — агентную систему для автоматизированного создания синтетических наборов данных, предназначенных для обучения моделей машинного обучения. Система имитирует работу дата-сайентиста, самостоятельно выполняя итеративный цикл генерации, фильтрации и проверки данных. Это позволяет значительно повысить качество обучающих выборок, минимизируя шум и ошибки, характерные для стандартных методов синтеза данных.

← Все материалы