OpenAI выпустила LifeSciBench — специализированный набор тестов для проверки способностей нейросетей в области биологии, химии и медицины. Бенчмарк был разработан и проверен экспертами, чтобы оценить, насколько эффективно модели справляются с реальными исследовательскими задачами и принятием решений в сфере наук о жизни.

В отличие от общих тестов на эрудицию, LifeSciBench фокусируется на прикладных аспектах научной работы. Он включает задачи, требующие глубокого понимания специфических данных, анализа экспериментальных результатов и интерпретации сложных биологических процессов. Такой подход позволяет точнее определить готовность ИИ-систем к поддержке лабораторных исследований и разработке новых лекарственных препаратов.

Создание подобных узкоспециализированных инструментов отражает переход от оценки общих навыков моделей к проверке их компетенций в критически важных отраслях. Результаты тестирования на этом бенчмарке помогут исследователям понять, на каком уровне автоматизации находятся современные модели при решении задач, требующих высокой точности и экспертных знаний.