Исследователи из Стэнфорда представили новый датасет для обучения языковых моделей. Stanford EDGAR Filings Dataset (SEFD) содержит финансовые отчёты компаний США, собранные из системы EDGAR SEC. Это первый крупный датасет, который включает структурированные и длинные документы с сохранением оригинального форматирования.

Датасет состоит из более чем 10 миллионов документов, охватывающих период с 1993 по 2023 год. Исследователи отмечают, что SEFD может стать важным источником данных для обучения моделей на длинных контекстах, так как существующие датасеты либо узкоспециализированные, либо синтетические.

SEFD включает в себя не только текстовые данные, но и метаинформацию о компаниях, что позволяет использовать его для задач анализа финансовых отчётов и прогнозирования. Исследователи также разработали методы для эффективного токенизации и обработки данных, что делает датасет удобным для использования в различных задачах машинного обучения.

Датасет доступен для научного сообщества и может быть использован для улучшения качества языковых моделей, а также для разработки новых методов анализа финансовых данных.