Исследователи представили метод повышения качества обучения моделей для суммаризации длинных научных документов. Авторы работы доказали, что использование всех доступных аннотаций от авторов статей не всегда эффективно из-за их неоднородного качества. Предложенный алгоритм фильтрации данных позволяет отбирать наиболее релевантные примеры, что значительно улучшает точность генерации кратких изложений для моделей с длинным контекстным окном.

Традиционные наборы данных для суммаризации часто опираются на авторские аннотации как на «золотой стандарт». Однако анализ показал, что такие тексты могут быть плохо согласованы с основным содержанием статьи или содержать избыточную информацию. Новый подход фокусируется на оценке качества пар «документ-аннотация», отсеивая шумные данные, которые негативно влияют на обучение нейросетей.

В рамках исследования был создан и опубликован новый датасет, предназначенный для обучения современных LLM работе с длинными научными текстами. Этот ресурс закрывает дефицит качественных данных, необходимых для дообучения моделей, способных эффективно обрабатывать сложные академические материалы и выделять из них ключевые тезисы без потери контекста.

Ключевые факты

  • Разработан метод отбора данных, основанный на оценке качества соответствия авторских аннотаций содержанию научных статей.
  • Установлено, что фильтрация обучающей выборки позволяет моделям лучше справляться с суммаризацией длинных документов, чем простое увеличение объема данных.
  • Опубликован новый структурированный датасет для обучения моделей суммаризации, адаптированный под современные требования к работе с длинным контекстом.
  • Исследование направлено на решение проблемы ограниченности и низкого качества существующих открытых наборов данных в научной сфере.