Исследователи представили новый датасет MetaSyn, предназначенный для оценки способностей ИИ-агентов проводить мета-анализ — сложный процесс синтеза данных, включающий поиск литературы, отбор исследований и статистический анализ. Этот процесс требует системного и проверяемого подхода, что делает его идеальным для тестирования научного мышления агентов.
MetaSyn охватывает весь цикл работы с данными: от извлечения информации до синтеза результатов. Это позволяет оценивать не только отдельные этапы, но и способность агентов интегрировать их в единый процесс. Существующие бенчмарки часто фокусируются только на части этих задач, что ограничивает их полезность для оценки комплексных навыков.
Датасет включает статьи из Nature Portfolio, что обеспечивает высокое качество и релевантность данных. Это особенно важно для разработчиков ИИ-агентов, так как позволяет тестировать системы на реальных, а не искусственных данных. MetaSyn может стать важным инструментом для улучшения алгоритмов, отвечающих за обработку и анализ научной информации.
Для команды Jarv этот датасет представляет особый интерес, так как позволяет оценить способность агентов работать с научными текстами и проводить сложные аналитические операции. Это может быть полезно для улучшения модулей, отвечающих за обработку информации и принятие решений на основе данных.