MarkTechPost · 17.06.2026 ·Оценка и бенчмарки

OpenAI представила LifeSciBench для оценки ИИ в биологических исследованиях

OpenAI представила LifeSciBench для оценки ИИ в биологических исследованиях

OpenAI выпустила LifeSciBench — специализированный бенчмарк для тестирования возможностей нейросетей в области наук о жизни. Набор данных включает 750 задач, охватывающих семь биологических доменов и семь ключевых рабочих процессов. В создании методологии приняли участие 173 профильных специалиста с учеными степенями, которые разработали более 19 тысяч критериев оценки. В отличие от стандартных тестов, ориентированных на проверку памяти, этот инструмент фокусируется на логических рассуждениях и принятии решений в условиях реальных научных исследований.

Тестирование показало, что даже передовые модели сталкиваются с серьезными трудностями при выполнении узкоспециализированных задач. Лучший результат продемонстрировала модель GPT-Rosalind, успешно справившись с 36,1% заданий. Значительный разрыв в показателях наблюдается при работе с артефактами, генерации точных выходных данных и выполнении операционных вызовов, что указывает на необходимость дальнейшей доработки архитектур моделей для нужд фундаментальной науки.

Создание LifeSciBench отражает тренд на переход от общих тестов к узкоотраслевым бенчмаркам, которые позволяют объективно измерить пригодность ИИ для решения прикладных задач в медицине, биологии и фармацевтике. Результаты исследования подчеркивают, что текущие системы пока не готовы к полной автономности в сложных научных процессах, требующих высокой точности и глубокой экспертизы.

Источник: MarkTechPost

Обсудить с ИИ

Похожие материалы

OpenAI News · Оценка и бенчмарки OpenAI представила LifeSciBench для оценки ИИ в науках о жизни OpenAI выпустила LifeSciBench — специализированный набор тестов для проверки способностей нейросетей в области биологии, химии и медицины. Бенчмарк был разработан и проверен экспертами, чтобы оценить, насколько эффективно модели справляются с реальными исследовательскими задачами и принятием решений в сфере наук о жизни. OpenAI News · Оценка и бенчмарки OpenAI представила GeneBench-Pro для оценки ИИ в биологии и генетике OpenAI анонсировала GeneBench-Pro — специализированный бенчмарк для оценки возможностей нейросетей в области генетики, биологии и научных исследований. Инструмент использует сложные наборы данных из реальной практики, чтобы проверить способность моделей решать прикладные задачи в наукоемких дисциплинах, выходя за рамки стандартных тестов на общую эрудицию или написание кода. Hacker News · Оценка и бенчмарки LifeSciBench: новый стандарт оценки LLM в области наук о жизни Исследователи представили LifeSciBench — специализированный бенчмарк для оценки возможностей больших языковых моделей в решении задач экспертного уровня в биологии, химии и медицине. В отличие от общих тестов, этот набор данных сфокусирован на проверке способности моделей работать с узкоспециализированной научной терминологией, анализировать молекулярные структуры и интерпретировать сложные экспериментальные данные. Hacker News · Оценка и бенчмарки OpenAI представила GeneBench-Pro для оценки моделей в биологических исследованиях OpenAI выпустила GeneBench-Pro — специализированный набор инструментов для оценки производительности ИИ-моделей в задачах молекулярной биологии и генетики. Платформа позволяет стандартизировать тестирование нейросетей, анализирующих геномные данные, предсказывающих структуру белков и моделирующих взаимодействие лекарственных препаратов, что критически важно для развития высокоточных медицинских технологий и ускорения разработки новых терапевтических решений на базе машинного обучения. OpenAI News · Оценка и бенчмарки OpenAI выявила критические недостатки в бенчмарке SWE-Bench Pro OpenAI опубликовала исследование, указывающее на низкую надежность популярного бенчмарка SWE-Bench Pro для оценки навыков программирования у ИИ-моделей. Анализ показал, что текущие методы тестирования подвержены шуму и не всегда корректно отражают реальную способность агентов решать сложные инженерные задачи, что ставит под сомнение точность существующих рейтингов производительности моделей в задачах разработки ПО. Hacker News · Оценка и бенчмарки OpenAI пересмотрела подход к оценке навыков программирования у ИИ OpenAI опубликовала анализ, в котором поставила под сомнение эффективность популярного бенчмарка SWE-bench Pro для оценки способностей ИИ-моделей в написании кода. Компания утверждает, что текущие методы тестирования перестали отражать реальную производительность моделей в сложных задачах разработки, и призывает индустрию сфокусироваться на более комплексных метриках, которые лучше коррелируют с практической пользой для инженеров. arXiv · Оценка и бенчмарки NatureBench: новый стандарт для оценки научных способностей ИИ-агентов Исследователи представили NatureBench — специализированный бенчмарк для оценки ИИ-агентов, пишущих код для решения реальных научных задач. В набор вошли 90 междисциплинарных задач, отобранных из публикаций журналов семейства Nature. Цель проекта — проверить, способны ли современные модели не просто воспроизводить результаты, а совершать научные открытия, работая в стандартизированных контейнеризированных средах. The Decoder · Оценка и бенчмарки OpenAI выявила критические ошибки в популярном бенчмарке для программирования SWE-Bench OpenAI провела аудит популярного теста SWE-Bench Pro, предназначенного для оценки навыков написания кода у ИИ-моделей, и обнаружила, что около 30% задач в нем содержат ошибки. В связи с этим компания официально отозвала свое признание данного бенчмарка как надежного инструмента для измерения прогресса в области разработки программного обеспечения с помощью нейросетей. The Decoder · Оценка и бенчмарки Новый бенчмарк показал низкую эффективность ИИ в реальных интеллектуальных задачах Исследователи представили новый бенчмарк, предназначенный для оценки способности нейросетей справляться с комплексной интеллектуальной работой. В отличие от стандартных тестов, проверяющих знание фактов или написание кода, этот инструмент имитирует реальные рабочие процессы, требующие многоэтапного планирования, анализа контекста и принятия решений. Результаты показали, что даже самые передовые языковые модели демонстрируют крайне низкие показатели в таких условиях. arXiv · Оценка и бенчмарки IdeaGene-Bench: новый бенчмарк для оценки научной преемственности в ИИ Исследователи представили IdeaGene-Bench (IG-Bench) — новый бенчмарк, оценивающий способность ИИ-моделей анализировать научную преемственность и генерировать идеи на основе истории развития конкретных концепций. В отличие от стандартных тестов, IG-Bench проверяет, насколько эффективно модели понимают механизмы наследования идей, их модификации и рекомбинации, имитируя биологические процессы эволюции знаний в научной среде.

← Все материалы