OpenAI News · 16.06.2026 ·Оценка и бенчмарки

OpenAI представила LifeSciBench для оценки ИИ в науках о жизни

OpenAI выпустила LifeSciBench — специализированный набор тестов для проверки способностей нейросетей в области биологии, химии и медицины. Бенчмарк был разработан и проверен экспертами, чтобы оценить, насколько эффективно модели справляются с реальными исследовательскими задачами и принятием решений в сфере наук о жизни.

В отличие от общих тестов на эрудицию, LifeSciBench фокусируется на прикладных аспектах научной работы. Он включает задачи, требующие глубокого понимания специфических данных, анализа экспериментальных результатов и интерпретации сложных биологических процессов. Такой подход позволяет точнее определить готовность ИИ-систем к поддержке лабораторных исследований и разработке новых лекарственных препаратов.

Создание подобных узкоспециализированных инструментов отражает переход от оценки общих навыков моделей к проверке их компетенций в критически важных отраслях. Результаты тестирования на этом бенчмарке помогут исследователям понять, на каком уровне автоматизации находятся современные модели при решении задач, требующих высокой точности и экспертных знаний.

Источник: OpenAI News

Обсудить с ИИ

Похожие материалы

MarkTechPost · Оценка и бенчмарки OpenAI представила LifeSciBench для оценки ИИ в биологических исследованиях OpenAI выпустила LifeSciBench — специализированный бенчмарк для тестирования возможностей нейросетей в области наук о жизни. Набор данных включает 750 задач, охватывающих семь биологических доменов и семь ключевых рабочих процессов. В создании методологии приняли участие 173 профильных специалиста с учеными степенями, которые разработали более 19 тысяч критериев оценки. В отличие от стандартных тестов, ориентированных на проверку памяти, этот инструмент фокусируется на логических рассуждениях и принятии решений в условиях реальных научных исследований. Hacker News · Оценка и бенчмарки LifeSciBench: новый стандарт оценки LLM в области наук о жизни Исследователи представили LifeSciBench — специализированный бенчмарк для оценки возможностей больших языковых моделей в решении задач экспертного уровня в биологии, химии и медицине. В отличие от общих тестов, этот набор данных сфокусирован на проверке способности моделей работать с узкоспециализированной научной терминологией, анализировать молекулярные структуры и интерпретировать сложные экспериментальные данные. OpenAI News · Оценка и бенчмарки OpenAI представила GeneBench-Pro для оценки ИИ в биологии и генетике OpenAI анонсировала GeneBench-Pro — специализированный бенчмарк для оценки возможностей нейросетей в области генетики, биологии и научных исследований. Инструмент использует сложные наборы данных из реальной практики, чтобы проверить способность моделей решать прикладные задачи в наукоемких дисциплинах, выходя за рамки стандартных тестов на общую эрудицию или написание кода. Hacker News · Оценка и бенчмарки OpenAI представила GeneBench-Pro для оценки моделей в биологических исследованиях OpenAI выпустила GeneBench-Pro — специализированный набор инструментов для оценки производительности ИИ-моделей в задачах молекулярной биологии и генетики. Платформа позволяет стандартизировать тестирование нейросетей, анализирующих геномные данные, предсказывающих структуру белков и моделирующих взаимодействие лекарственных препаратов, что критически важно для развития высокоточных медицинских технологий и ускорения разработки новых терапевтических решений на базе машинного обучения. arXiv · Оценка и бенчмарки NatureBench: новый стандарт для оценки научных способностей ИИ-агентов Исследователи представили NatureBench — специализированный бенчмарк для оценки ИИ-агентов, пишущих код для решения реальных научных задач. В набор вошли 90 междисциплинарных задач, отобранных из публикаций журналов семейства Nature. Цель проекта — проверить, способны ли современные модели не просто воспроизводить результаты, а совершать научные открытия, работая в стандартизированных контейнеризированных средах. arXiv · Оценка и бенчмарки IdeaGene-Bench: новый бенчмарк для оценки научной преемственности в ИИ Исследователи представили IdeaGene-Bench (IG-Bench) — новый бенчмарк, оценивающий способность ИИ-моделей анализировать научную преемственность и генерировать идеи на основе истории развития конкретных концепций. В отличие от стандартных тестов, IG-Bench проверяет, насколько эффективно модели понимают механизмы наследования идей, их модификации и рекомбинации, имитируя биологические процессы эволюции знаний в научной среде. Hacker News · Оценка и бенчмарки Human-bench: новый стандарт оценки «человекоподобных» ИИ-агентов Проект Human-bench представил специализированный бенчмарк для оценки ИИ-агентов, имитирующих поведение человека в цифровой среде. В отличие от классических тестов на логику или программирование, этот инструмент фокусируется на способности моделей выполнять задачи в интерфейсах, требующих многошагового взаимодействия, навигации по сайтам и принятия решений в условиях, максимально приближенных к реальной работе пользователя. OpenAI News · Оценка и бенчмарки OpenAI выявила критические недостатки в бенчмарке SWE-Bench Pro OpenAI опубликовала исследование, указывающее на низкую надежность популярного бенчмарка SWE-Bench Pro для оценки навыков программирования у ИИ-моделей. Анализ показал, что текущие методы тестирования подвержены шуму и не всегда корректно отражают реальную способность агентов решать сложные инженерные задачи, что ставит под сомнение точность существующих рейтингов производительности моделей в задачах разработки ПО. Hacker News · Оценка и бенчмарки OpenAI пересмотрела подход к оценке навыков программирования у ИИ OpenAI опубликовала анализ, в котором поставила под сомнение эффективность популярного бенчмарка SWE-bench Pro для оценки способностей ИИ-моделей в написании кода. Компания утверждает, что текущие методы тестирования перестали отражать реальную производительность моделей в сложных задачах разработки, и призывает индустрию сфокусироваться на более комплексных метриках, которые лучше коррелируют с практической пользой для инженеров. Hacker News · Оценка и бенчмарки Запуск Frontier-Bench: новый стандарт оценки способностей ИИ-моделей Представлен Frontier-Bench — комплексный бенчмарк для оценки возможностей передовых ИИ-моделей в решении сложных задач. Инструмент фокусируется на проверке навыков, выходящих за рамки стандартных тестов, включая многошаговое рассуждение, работу с кодом и глубокий анализ данных. Разработчики стремятся создать объективную метрику для измерения прогресса моделей в условиях их стремительного усложнения и роста автономности.

← Все материалы