Исследователи представили метод повышения качества обучения моделей для суммаризации длинных научных документов. Авторы работы доказали, что использование всех доступных аннотаций от авторов статей не всегда эффективно из-за их неоднородного качества. Предложенный алгоритм фильтрации данных позволяет отбирать наиболее релевантные примеры, что значительно улучшает точность генерации кратких изложений для моделей с длинным контекстным окном.
Традиционные наборы данных для суммаризации часто опираются на авторские аннотации как на «золотой стандарт». Однако анализ показал, что такие тексты могут быть плохо согласованы с основным содержанием статьи или содержать избыточную информацию. Новый подход фокусируется на оценке качества пар «документ-аннотация», отсеивая шумные данные, которые негативно влияют на обучение нейросетей.
В рамках исследования был создан и опубликован новый датасет, предназначенный для обучения современных LLM работе с длинными научными текстами. Этот ресурс закрывает дефицит качественных данных, необходимых для дообучения моделей, способных эффективно обрабатывать сложные академические материалы и выделять из них ключевые тезисы без потери контекста.
Ключевые факты
- Разработан метод отбора данных, основанный на оценке качества соответствия авторских аннотаций содержанию научных статей.
- Установлено, что фильтрация обучающей выборки позволяет моделям лучше справляться с суммаризацией длинных документов, чем простое увеличение объема данных.
- Опубликован новый структурированный датасет для обучения моделей суммаризации, адаптированный под современные требования к работе с длинным контекстом.
- Исследование направлено на решение проблемы ограниченности и низкого качества существующих открытых наборов данных в научной сфере.