Исследователи представили NatureBench — специализированный бенчмарк для оценки ИИ-агентов, пишущих код для решения реальных научных задач. В набор вошли 90 междисциплинарных задач, отобранных из публикаций журналов семейства Nature. Цель проекта — проверить, способны ли современные модели не просто воспроизводить результаты, а совершать научные открытия, работая в стандартизированных контейнеризированных средах.

Бенчмарк базируется на инфраструктуре NatureGym, которая автоматически разворачивает изолированные окружения для каждой задачи, извлекая данные непосредственно из рецензируемых статей. Такой подход позволяет минимизировать ошибки при оценке и обеспечить воспроизводимость экспериментов. В отличие от стандартных тестов на написание кода, NatureBench фокусируется на сложности научной методологии, требующей глубокого понимания предметной области и корректной обработки данных.

Создание подобных инструментов критически важно для понимания текущего потолка возможностей LLM в фундаментальной науке. Авторы стремятся выяснить, могут ли автономные агенты стать полноценными помощниками в лабораториях, переходя от простых скриптов к созданию новых алгоритмов анализа данных, которые соответствуют стандартам публикаций в высокорейтинговых научных изданиях.

Ключевые факты

  • NatureBench включает 90 уникальных задач, отобранных из рецензируемых публикаций семейства Nature.
  • Инфраструктура NatureGym обеспечивает автоматическое создание контейнеризированных сред для каждой задачи.
  • Бенчмарк оценивает способность агентов выходить за рамки простого воспроизведения кода и переходить к научному поиску.
  • Тестирование охватывает широкий спектр междисциплинарных научных областей, требующих сложной обработки данных.