arXiv · 23.06.2026 ·Исследования и наука

Новый подход к отбору данных для суммаризации научных текстов

Исследователи представили метод повышения качества обучения моделей для суммаризации длинных научных документов. Авторы работы доказали, что использование всех доступных аннотаций от авторов статей не всегда эффективно из-за их неоднородного качества. Предложенный алгоритм фильтрации данных позволяет отбирать наиболее релевантные примеры, что значительно улучшает точность генерации кратких изложений для моделей с длинным контекстным окном.

Традиционные наборы данных для суммаризации часто опираются на авторские аннотации как на «золотой стандарт». Однако анализ показал, что такие тексты могут быть плохо согласованы с основным содержанием статьи или содержать избыточную информацию. Новый подход фокусируется на оценке качества пар «документ-аннотация», отсеивая шумные данные, которые негативно влияют на обучение нейросетей.

В рамках исследования был создан и опубликован новый датасет, предназначенный для обучения современных LLM работе с длинными научными текстами. Этот ресурс закрывает дефицит качественных данных, необходимых для дообучения моделей, способных эффективно обрабатывать сложные академические материалы и выделять из них ключевые тезисы без потери контекста.

Ключевые факты

Разработан метод отбора данных, основанный на оценке качества соответствия авторских аннотаций содержанию научных статей.
Установлено, что фильтрация обучающей выборки позволяет моделям лучше справляться с суммаризацией длинных документов, чем простое увеличение объема данных.
Опубликован новый структурированный датасет для обучения моделей суммаризации, адаптированный под современные требования к работе с длинным контекстом.
Исследование направлено на решение проблемы ограниченности и низкого качества существующих открытых наборов данных в научной сфере.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Итеративная самофильтрация данных для обучения мультимодальных моделей Качество обучающих выборок остается критическим фактором при создании эффективных мультимодальных нейросетей. В условиях работы с массивами данных гигантского объема ручная проверка становится невозможной, что приводит к накоплению значительного количества «шумных» и нерелевантных примеров. Традиционные методы очистки данных, основанные на эвристиках или использовании сторонних предобученных моделей, часто оказываются недостаточно гибкими или требуют больших вычислительных затрат. arXiv · Обучение и дообучение Масштабируемые законы дистилляции LLM для узкоспециализированных задач Исследователи вывели эмпирические законы масштабирования для дистилляции LLM, позволяющие прогнозировать качество сжатых моделей в зависимости от объема данных и коэффициента компрессии. Работа решает проблему высокой стоимости и задержек при развертывании крупных моделей, предлагая математически обоснованный подход к созданию компактных и эффективных версий нейросетей для специфических доменов без потери критических знаний. arXiv · Машинное обучение Метод декомпозиции задач для повышения эффективности разметки данных Исследователи представили новый подход к разметке структурированных данных, основанный на декомпозиции сложных задач на более простые подзадачи. Метод позволяет значительно снизить затраты на создание качественных обучающих выборок, минимизируя необходимость в дорогостоящей ручной проверке результатов, полученных с помощью моделей, и повышая общую точность разметки для последующего обучения downstream-моделей. Hacker News · Обучение и дообучение Новые датасеты для ML-исследований от ArXiv и Semantic Scholar Команда FineSet.io выпустила набор датасетов, собранных из ArXiv и Semantic Scholar. Эти датасеты представлены в формате JSONL и содержат оценки качества, что делает их полезными для исследователей и разработчиков в области машинного обучения. arXiv · Оценка и бенчмарки Новый метод борьбы с предвзятостью LLM-судей при оценке качества ответов Исследователи представили новый подход к оценке больших языковых моделей, использующих другие LLM в качестве «судей». Текущие системы автоматической оценки часто страдают от систематических искажений, не связанных с качеством контента. Наиболее выраженной проблемой является «предвзятость к многословию»: модели склонны завышать оценки длинным ответам, даже если они менее точны или информативны, чем краткие варианты. arXiv · Обучение и дообучение Randomized YaRN: новый метод улучшения работы LLM с длинными контекстами Исследователи представили метод Randomized YaRN, направленный на решение проблемы ограниченной длины контекста в больших языковых моделях. Большинство современных LLM проходят предварительное обучение на относительно коротких последовательностях, а затем адаптируются для работы с длинными текстами. Однако даже после дообучения такие модели часто демонстрируют снижение качества при обработке данных, значительно превышающих длину, использованную в процессе адаптации. arXiv · Исследования и наука Новый подход к редакционному контролю в LLM-системах Исследователи представили концепцию «редакционного алайнмента» (Editorial Alignment), направленную на сохранение экспертного контроля над распространением знаний в эпоху LLM. Авторы работы анализируют проблему, при которой предобученные модели навязывают собственные ценности и алгоритмы фильтрации, фактически подменяя собой традиционные институты проверки информации. Это создает риски для качества контента и снижает авторитетность специализированных источников, чьи редакционные стандарты игнорируются в процессе генерации ответов. arXiv · Исследования и наука Метод разрешения конфликтов знаний в LLM при работе с внешними данными Исследователи представили новый подход к решению проблемы противоречий между внутренними параметрическими знаниями языковых моделей и информацией, поступающей из внешнего контекста. В современных системах, использующих RAG или длинные промпты, модель часто сталкивается с ситуацией, когда данные в запросе пользователя противоречат тому, что было «выучено» моделью в процессе обучения. Это приводит к галлюцинациям или снижению точности ответов, так как модель не может эффективно приоритизировать источники данных. Hacker News · Машинное обучение Ограничения обучения на знаниях LLM Исследование указывает на фундаментальную проблему при попытке дообучения моделей на основе их собственных ответов. Авторы анализируют, почему использование синтетических данных, сгенерированных самой нейросетью, часто приводит к деградации качества, а не к улучшению навыков. Основная сложность заключается в том, что модель при дообучении начинает воспроизводить собственные статистические ошибки и галлюцинации, закрепляя их как эталонные знания. arXiv · Машинное обучение Исследование переосмысливает методы сжатия датасетов в машинном обучении Учёные пересмотрели подходы к dataset distillation (DD) — методу, который позволяет создавать компактные обучающие наборы данных, сохраняя ключевую информацию из больших датасетов. Исследование, опубликованное на arXiv, выявило несоответствия в оценке эффективности DD-методов, которые часто тестируются по разным протоколам, от стандартного ERM до использования одного или нескольких учителей.

← Все материалы