OpenAI выпустила LifeSciBench — специализированный бенчмарк для тестирования возможностей нейросетей в области наук о жизни. Набор данных включает 750 задач, охватывающих семь биологических доменов и семь ключевых рабочих процессов. В создании методологии приняли участие 173 профильных специалиста с учеными степенями, которые разработали более 19 тысяч критериев оценки. В отличие от стандартных тестов, ориентированных на проверку памяти, этот инструмент фокусируется на логических рассуждениях и принятии решений в условиях реальных научных исследований.
Тестирование показало, что даже передовые модели сталкиваются с серьезными трудностями при выполнении узкоспециализированных задач. Лучший результат продемонстрировала модель GPT-Rosalind, успешно справившись с 36,1% заданий. Значительный разрыв в показателях наблюдается при работе с артефактами, генерации точных выходных данных и выполнении операционных вызовов, что указывает на необходимость дальнейшей доработки архитектур моделей для нужд фундаментальной науки.
Создание LifeSciBench отражает тренд на переход от общих тестов к узкоотраслевым бенчмаркам, которые позволяют объективно измерить пригодность ИИ для решения прикладных задач в медицине, биологии и фармацевтике. Результаты исследования подчеркивают, что текущие системы пока не готовы к полной автономности в сложных научных процессах, требующих высокой точности и глубокой экспертизы.
