Исследователи представили LifeSciBench — специализированный бенчмарк для оценки возможностей больших языковых моделей в решении задач экспертного уровня в биологии, химии и медицине. В отличие от общих тестов, этот набор данных сфокусирован на проверке способности моделей работать с узкоспециализированной научной терминологией, анализировать молекулярные структуры и интерпретировать сложные экспериментальные данные.

Бенчмарк включает задачи, требующие глубоких знаний в области биохимии, фармакологии и геномики. Авторы проекта подчеркивают, что текущие модели часто показывают хорошие результаты на общих тестах, но сталкиваются с трудностями при решении прикладных научных задач, где цена ошибки критически высока. LifeSciBench призван выявить пробелы в логических рассуждениях моделей при работе с научной литературой и базами данных.

Результаты тестирования показывают, что даже передовые модели демонстрируют разную степень эффективности в зависимости от сложности научной дисциплины. Использование этого инструмента позволит разработчикам точнее настраивать архитектуры моделей для специализированных исследований, ускоряя автоматизацию анализа данных в фармацевтике и биотехнологиях. Публикация бенчмарка дает сообществу единый стандарт для измерения прогресса ИИ в критически важных научных областях.