arXiv · 16.06.2026 ·Данные и инжиниринг

Новый датасет для обучения LLM на финансовых отчётах

Исследователи из Стэнфорда представили новый датасет для обучения языковых моделей. Stanford EDGAR Filings Dataset (SEFD) содержит финансовые отчёты компаний США, собранные из системы EDGAR SEC. Это первый крупный датасет, который включает структурированные и длинные документы с сохранением оригинального форматирования.

Датасет состоит из более чем 10 миллионов документов, охватывающих период с 1993 по 2023 год. Исследователи отмечают, что SEFD может стать важным источником данных для обучения моделей на длинных контекстах, так как существующие датасеты либо узкоспециализированные, либо синтетические.

SEFD включает в себя не только текстовые данные, но и метаинформацию о компаниях, что позволяет использовать его для задач анализа финансовых отчётов и прогнозирования. Исследователи также разработали методы для эффективного токенизации и обработки данных, что делает датасет удобным для использования в различных задачах машинного обучения.

Датасет доступен для научного сообщества и может быть использован для улучшения качества языковых моделей, а также для разработки новых методов анализа финансовых данных.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука Новый подход к отбору данных для суммаризации научных текстов Исследователи представили метод повышения качества обучения моделей для суммаризации длинных научных документов. Авторы работы доказали, что использование всех доступных аннотаций от авторов статей не всегда эффективно из-за их неоднородного качества. Предложенный алгоритм фильтрации данных позволяет отбирать наиболее релевантные примеры, что значительно улучшает точность генерации кратких изложений для моделей с длинным контекстным окном. arXiv · Обучение и дообучение Новый датасет для улучшения аудио-языковых моделей Исследователи представили AudioDER — новый датасет, предназначенный для улучшения способностей аудио-языковых моделей (LALMs) к сложному аудио-рассуждению. LALMs уже демонстрируют высокие результаты в различных задачах понимания аудио, но их возможности в области сложного анализа и интерпретации звуковых данных остаются ограниченными. Hacker News · Обучение и дообучение Новые датасеты для ML-исследований от ArXiv и Semantic Scholar Команда FineSet.io выпустила набор датасетов, собранных из ArXiv и Semantic Scholar. Эти датасеты представлены в формате JSONL и содержат оценки качества, что делает их полезными для исследователей и разработчиков в области машинного обучения. arXiv · Исследования и наука Новый подход к оценке моделей обнаружения финансового мошенничества Исследователи представили методологию оценки моделей для выявления мошенничества в финансовой отчетности, которая устраняет проблему завышенных показателей точности. Вместо случайного разделения данных авторы предлагают использовать сценарии, имитирующие реальные условия: проверку на новых компаниях и будущих отчетных периодах. Это позволяет объективно оценить способность алгоритмов адаптироваться к меняющимся схемам манипуляций и новым типам данных. The GitHub Blog · Модели и релизы GitHub выпустил открытый датасет для обучения многоязычных моделей GitHub представил новый открытый датасет, содержащий мультиязычный контент из репозиториев. Данные собраны из README, issues и pull requests и доступны под лицензией CC0-1.0. Hacker News · Оценка и бенчмарки Представлен FrontierFinance: крупнейший открытый бенчмарк для инвестиционного анализа Исследователи представили FrontierFinance — масштабный открытый бенчмарк, предназначенный для оценки способности ИИ-моделей выполнять сложные задачи в сфере инвестиционного анализа. Набор данных включает более 1000 специализированных кейсов, охватывающих финансовое моделирование, анализ отчетности и рыночную аналитику, что позволяет измерять эффективность LLM в реальных рабочих процессах профессиональных инвесторов и финансовых аналитиков. Hacker News · Оценка и бенчмарки Датасет Forensic Refusal для анализа отказов ИИ-моделей Hugging Face опубликовал датасет Forensic Refusal, предназначенный для глубокого анализа поведения LLM при получении провокационных запросов. Набор данных содержит структурированные примеры отказов моделей, позволяя исследователям изучать механизмы безопасности, границы допустимого контента и причины возникновения ложноположительных срабатываний систем фильтрации, что критически важно для настройки алайнмента современных языковых моделей. NVIDIA Technical Blog · Данные и инжиниринг Генерация синтетических данных для финансовых LLM с помощью NVIDIA NeMo NVIDIA представила методологию генерации синтетических данных для обучения финансовых языковых моделей с использованием фреймворка NeMo. Решение позволяет преодолеть проблему нехватки качественных и сбалансированных данных в финансовом секторе, где реальные новости часто перегружены отчетами о доходах, что затрудняет обучение моделей для анализа рыночных настроений и специфических финансовых событий. Hacker News · ИИ в бизнесе Система автоматизированного анализа фондового рынка на базе LLM Проект Daily_stock_analysis представляет собой комплексную систему для автоматизированного сбора и интерпретации данных фондового рынка. Инструмент использует возможности больших языковых моделей для обработки финансовых новостей, отчетов и рыночных показателей, формируя ежедневные аналитические сводки по различным активам. В основе решения лежит пайплайн, который объединяет парсинг актуальных данных из открытых источников с последующим семантическим анализом для выявления ключевых рыночных трендов. arXiv · Машинное обучение DenseOn и LateOn: открытые модели для поиска с длинным контекстом и поддержкой языков Исследователи представили DenseOn и LateOn — полностью открытые модели для семантического поиска, решающие проблему зависимости индустрии от закрытых данных. Авторы разработали комплексный пайплайн обучения, включающий 665 млн пар данных, и продемонстрировали эффективность переноса англоязычного обучения на многоязычные задачи, обеспечивая высокую точность в поиске по коду и длинным документам при полной воспроизводимости результатов.

← Все материалы