Hacker News · 17.06.2026 ·Оценка и бенчмарки

LifeSciBench: новый стандарт оценки LLM в области наук о жизни

Исследователи представили LifeSciBench — специализированный бенчмарк для оценки возможностей больших языковых моделей в решении задач экспертного уровня в биологии, химии и медицине. В отличие от общих тестов, этот набор данных сфокусирован на проверке способности моделей работать с узкоспециализированной научной терминологией, анализировать молекулярные структуры и интерпретировать сложные экспериментальные данные.

Бенчмарк включает задачи, требующие глубоких знаний в области биохимии, фармакологии и геномики. Авторы проекта подчеркивают, что текущие модели часто показывают хорошие результаты на общих тестах, но сталкиваются с трудностями при решении прикладных научных задач, где цена ошибки критически высока. LifeSciBench призван выявить пробелы в логических рассуждениях моделей при работе с научной литературой и базами данных.

Результаты тестирования показывают, что даже передовые модели демонстрируют разную степень эффективности в зависимости от сложности научной дисциплины. Использование этого инструмента позволит разработчикам точнее настраивать архитектуры моделей для специализированных исследований, ускоряя автоматизацию анализа данных в фармацевтике и биотехнологиях. Публикация бенчмарка дает сообществу единый стандарт для измерения прогресса ИИ в критически важных научных областях.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

OpenAI News · Оценка и бенчмарки OpenAI представила LifeSciBench для оценки ИИ в науках о жизни OpenAI выпустила LifeSciBench — специализированный набор тестов для проверки способностей нейросетей в области биологии, химии и медицины. Бенчмарк был разработан и проверен экспертами, чтобы оценить, насколько эффективно модели справляются с реальными исследовательскими задачами и принятием решений в сфере наук о жизни. MarkTechPost · Оценка и бенчмарки OpenAI представила LifeSciBench для оценки ИИ в биологических исследованиях OpenAI выпустила LifeSciBench — специализированный бенчмарк для тестирования возможностей нейросетей в области наук о жизни. Набор данных включает 750 задач, охватывающих семь биологических доменов и семь ключевых рабочих процессов. В создании методологии приняли участие 173 профильных специалиста с учеными степенями, которые разработали более 19 тысяч критериев оценки. В отличие от стандартных тестов, ориентированных на проверку памяти, этот инструмент фокусируется на логических рассуждениях и принятии решений в условиях реальных научных исследований. arXiv · Оценка и бенчмарки Новый бенчмарк для оценки клинического мышления LLM Исследователи представили специализированный набор данных для тестирования навыков клинического мышления у передовых языковых моделей. В отличие от стандартных тестов с выбором ответа, новый бенчмарк фокусируется на открытых сценариях, составленных практикующими врачами. Результаты показывают, что даже топовые модели демонстрируют низкую эффективность в сложных медицинских задачах, где точность ответов в «сложном» сегменте не превышает 32%. arXiv · Оценка и бенчмарки Расширение бенчмарка LiveCodeBench на несколько языков программирования Исследователи представили Multi-LCB — расширенную версию бенчмарка LiveCodeBench, предназначенную для комплексной оценки навыков генерации кода у больших языковых моделей. Оригинальный проект LiveCodeBench стал стандартом в индустрии благодаря использованию актуальных задач с площадок для спортивного программирования и строгому контролю за утечкой данных, что позволяет объективно проверять способности моделей решать новые, ранее не встречавшиеся задачи. arXiv · Оценка и бенчмарки AdvancedMathBench: новый стандарт для оценки математических способностей LLM Исследователи представили AdvancedMathBench — специализированный набор тестов для оценки навыков генерации и верификации доказательств в области высшей математики. В отличие от существующих бенчмарков, сфокусированных на школьных задачах, этот инструмент охватывает университетские дисциплины и использует строгие методы проверки логической корректности, устраняя проблему поверхностной оценки ответов, характерную для текущих моделей. arXiv · Оценка и бенчмарки Новый бенчмарк для оценки навыков MLLM в научной визуализации Исследователи представили специализированный бенчмарк для оценки способности мультимодальных больших языковых моделей (MLLM) интерпретировать научную визуализацию. В отличие от существующих тестов, сфокусированных на простых графиках, этот набор данных проверяет понимание сложных научных визуальных представлений. Тестирование шести актуальных моделей показало их текущие ограничения в анализе специализированных данных, критически важных для научной работы. Hacker News · Оценка и бенчмарки OpenAI представила GeneBench-Pro для оценки моделей в биологических исследованиях OpenAI выпустила GeneBench-Pro — специализированный набор инструментов для оценки производительности ИИ-моделей в задачах молекулярной биологии и генетики. Платформа позволяет стандартизировать тестирование нейросетей, анализирующих геномные данные, предсказывающих структуру белков и моделирующих взаимодействие лекарственных препаратов, что критически важно для развития высокоточных медицинских технологий и ускорения разработки новых терапевтических решений на базе машинного обучения. Hacker News · Оценка и бенчмарки Microsoft представила BenchPress для прогнозирования результатов LLM на бенчмарках Microsoft выпустила инструмент BenchPress, позволяющий предсказывать производительность больших языковых моделей на различных бенчмарках без необходимости их полного тестирования. Система использует мета-обучение для оценки способностей модели на основе ограниченного набора данных, что значительно сокращает вычислительные затраты и время, требуемое для оценки новых архитектур и версий моделей в процессе их разработки. Hacker News · Оценка и бенчмарки Новый бенчмарк для оценки ИИ в повседневной медицинской помощи Исследователи из Mass General Brigham представили специализированный бенчмарк для оценки эффективности больших языковых моделей в клинической практике. Инструмент предназначен для проверки того, насколько корректно ИИ справляется с типичными задачами врача: постановкой предварительных диагнозов, интерпретацией симптомов и формированием планов лечения на основе данных пациентов. arXiv · Оценка и бенчмарки NatureBench: новый стандарт для оценки научных способностей ИИ-агентов Исследователи представили NatureBench — специализированный бенчмарк для оценки ИИ-агентов, пишущих код для решения реальных научных задач. В набор вошли 90 междисциплинарных задач, отобранных из публикаций журналов семейства Nature. Цель проекта — проверить, способны ли современные модели не просто воспроизводить результаты, а совершать научные открытия, работая в стандартизированных контейнеризированных средах.

← Все материалы