arXiv · 23.06.2026 ·Оценка и бенчмарки

NatureBench: новый стандарт для оценки научных способностей ИИ-агентов

Исследователи представили NatureBench — специализированный бенчмарк для оценки ИИ-агентов, пишущих код для решения реальных научных задач. В набор вошли 90 междисциплинарных задач, отобранных из публикаций журналов семейства Nature. Цель проекта — проверить, способны ли современные модели не просто воспроизводить результаты, а совершать научные открытия, работая в стандартизированных контейнеризированных средах.

Бенчмарк базируется на инфраструктуре NatureGym, которая автоматически разворачивает изолированные окружения для каждой задачи, извлекая данные непосредственно из рецензируемых статей. Такой подход позволяет минимизировать ошибки при оценке и обеспечить воспроизводимость экспериментов. В отличие от стандартных тестов на написание кода, NatureBench фокусируется на сложности научной методологии, требующей глубокого понимания предметной области и корректной обработки данных.

Создание подобных инструментов критически важно для понимания текущего потолка возможностей LLM в фундаментальной науке. Авторы стремятся выяснить, могут ли автономные агенты стать полноценными помощниками в лабораториях, переходя от простых скриптов к созданию новых алгоритмов анализа данных, которые соответствуют стандартам публикаций в высокорейтинговых научных изданиях.

Ключевые факты

NatureBench включает 90 уникальных задач, отобранных из рецензируемых публикаций семейства Nature.
Инфраструктура NatureGym обеспечивает автоматическое создание контейнеризированных сред для каждой задачи.
Бенчмарк оценивает способность агентов выходить за рамки простого воспроизведения кода и переходить к научному поиску.
Тестирование охватывает широкий спектр междисциплинарных научных областей, требующих сложной обработки данных.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы