Исследователи в рамках проекта «Tracking Stars and Unicorns» оценили эффективность LLM для автоматического извлечения сущностей и классификации тем в грантовых заявках UKRI. Сравнение GPT-4o, Mistral и специализированного алгоритма DSIT-Taxonomies показало возможности ИИ в выявлении ранних сигналов появления новых научных областей для оптимизации государственного финансирования и анализа метанаучных данных.

Работа сфокусирована на автоматизации обработки больших массивов проектной документации, что традиционно требует значительных временных затрат экспертов. Использование языковых моделей позволяет не только структурировать данные о текущих исследованиях, но и выстраивать таксономии, которые динамически адаптируются к изменениям в научной повестке. Это критически важно для принятия решений о распределении инвестиций в инновационные сектора.

Методология проекта опирается на сопоставление результатов работы универсальных моделей с кастомными алгоритмами классификации. Такой подход позволяет оценить точность извлечения специфических терминов и связей между ними, что необходимо для построения карт научных компетенций. Полученные данные помогают государственным структурам быстрее реагировать на сдвиги в академической среде и поддерживать наиболее перспективные направления на ранних стадиях.

Ключевые факты

  • Проект финансируется UKRI (UK Research and Innovation) и направлен на развитие метанаучных исследований.
  • В исследовании сравнивались три подхода: GPT-4o, Mistral и специализированный алгоритм DSIT-Taxonomies.
  • Основная цель — идентификация ранних сигналов возникновения новых научных областей для управления инвестициями.
  • Методология включает автоматизированное извлечение сущностей и классификацию тем из текстов грантовых заявок.