arXiv · 17.06.2026 ·Оценка и бенчмарки

Представлен бенчмарк TxBench-PP для оценки ИИ-агентов в фармакологии

Исследователи представили TxBench-PP — специализированный набор тестов для оценки эффективности ИИ-агентов в области доклинической фармакологии малых молекул. Инструмент направлен на проверку способности моделей принимать обоснованные решения в процессах разработки лекарственных препаратов, где критически важна точность интерпретации данных и логика выбора стратегий.

В отличие от общих тестов, TxBench-PP фокусируется на верифицируемых задачах, имитирующих реальные сценарии из фармацевтической практики. Бенчмарк позволяет количественно измерить, насколько успешно агент справляется с анализом химических соединений и прогнозированием их свойств на этапе ранних исследований. Это первый специализированный срез данных, ставший частью более масштабного проекта по стандартизации оценки ИИ в медицине.

Внедрение подобных инструментов необходимо для перехода от теоретических моделей к практическому применению агентов в лабораториях. Стандартизированная оценка помогает выявить слабые места в рассуждениях ИИ, что снижает риски при принятии решений в высокотехнологичных отраслях. Разработчики рассчитывают, что TxBench-PP станет отраслевым стандартом для проверки надежности агентных систем, претендующих на роль помощников в поиске новых лекарственных средств.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Оценка и бенчмарки E-Bench: новый стандарт для оценки многошаговых ИИ-агентов Исследователи представили E-Bench — специализированный бенчмарк для оценки способности LLM-агентов выполнять сложные многошаговые задачи в реальных продуктовых сценариях. В отличие от существующих тестов, сфокусированных на одиночных вызовах API, E-Bench проверяет навыки агентов по сбору скрытой информации, планированию последовательности действий и корректному изменению состояния системы в динамических средах. arXiv · Оценка и бенчмарки UniClawBench: новый стандарт оценки проактивных ИИ-агентов в реальных задачах Исследователи представили UniClawBench — комплексный бенчмарк для оценки проактивных ИИ-агентов, работающих с реальными инструментами. В отличие от существующих тестов, ограниченных изолированными средами, UniClawBench фокусируется на многошаговых сценариях, требующих от модели самостоятельной инициативы, планирования и взаимодействия с внешними сервисами в динамических условиях, что лучше отражает реальную эффективность агентов в повседневных задачах. MarkTechPost · Оценка и бенчмарки EdgeBench: новый стандарт для оценки производительности ИИ-агентов EdgeBench представляет собой комплексный бенчмарк для тестирования продвинутых ИИ-агентов в реальных условиях эксплуатации. Инструмент позволяет оценивать эффективность моделей в различных категориях задач, учитывая ограничения по времени выполнения и специфику среды исполнения. Методология включает детальный анализ таксономии задач, логику судейства и метрики масштабируемости, что критически важно для объективного сравнения агентных систем. Hacker News · Оценка и бенчмарки OpenBench: новый стандарт для оценки ИИ-агентов в программировании OpenBench представляет собой специализированный бенчмарк, предназначенный для объективного сравнения производительности различных агентных систем в задачах написания кода. Инструмент позволяет оценивать эффективность агентских фреймворков в реальных сценариях разработки, предоставляя разработчикам стандартизированную метрику для анализа того, насколько качественно агенты справляются с комплексными задачами программирования и отладки. arXiv · Оценка и бенчмарки BioSecBench-Surveillance: бенчмарк для оценки ИИ-агентов в геномном надзоре Исследователи представили BioSecBench-Surveillance — специализированный бенчмарк для тестирования ИИ-агентов, работающих с данными геномного надзора за патогенами. Набор из 100 сценариев оценивает способность моделей самостоятельно подбирать аналитические пайплайны на основе сырых данных секвенирования и контекста эпидемиологической ситуации, имитируя реальные задачи специалистов в области биоинформатики и общественного здравоохранения. Hacker News · Оценка и бенчмарки FlowerBench: новый стандарт оценки ИИ-агентов в корпоративных задачах Представлен FlowerBench — специализированный бенчмарк для оценки производительности ИИ-агентов в реальных корпоративных сценариях. В отличие от академических тестов, он фокусируется на выполнении сложных многошаговых процессов, требующих взаимодействия с внешними системами, управления состоянием и обработки ошибок. Инструмент позволяет измерять эффективность агентных систем в условиях, максимально приближенных к реальной бизнес-среде, где важна надежность и точность выполнения инструкций. arXiv · Оценка и бенчмарки EnterpriseClawBench: новый стандарт оценки корпоративных ИИ-агентов Исследователи представили EnterpriseClawBench — специализированный бенчмарк для оценки эффективности ИИ-агентов в реальных рабочих условиях. В отличие от синтетических тестов, этот набор данных сформирован на основе анализа реальных сессий взаимодействия сотрудников с корпоративными системами. В базу вошли 852 воспроизводимые задачи, которые охватывают типичные офисные сценарии: работу с разнородными файлами, вызов внешних инструментов и создание бизнес-артефактов. Hacker News · Оценка и бенчмарки Human-bench: новый стандарт оценки «человекоподобных» ИИ-агентов Проект Human-bench представил специализированный бенчмарк для оценки ИИ-агентов, имитирующих поведение человека в цифровой среде. В отличие от классических тестов на логику или программирование, этот инструмент фокусируется на способности моделей выполнять задачи в интерфейсах, требующих многошагового взаимодействия, навигации по сайтам и принятия решений в условиях, максимально приближенных к реальной работе пользователя. arXiv · Оценка и бенчмарки PathAgentBench: новый стандарт для оценки ИИ в цифровой патологии Исследователи представили PathAgentBench — специализированный бенчмарк для оценки мультимодальных моделей в задачах цифровой патологии. В отличие от существующих решений, работающих с заранее подготовленными фрагментами изображений, этот инструмент проверяет способность ИИ самостоятельно анализировать полноразмерные гигапиксельные слайды (WSI), последовательно собирая доказательства на разных уровнях масштабирования для постановки диагноза. Hacker News · Оценка и бенчмарки Tencent представила WorkBuddy Bench для оценки ИИ-агентов в программировании Tencent запустила WorkBuddy Bench — специализированный бенчмарк для оценки способностей ИИ-агентов в задачах разработки программного обеспечения. Платформа фокусируется на проверке навыков написания кода, отладки и выполнения комплексных инженерных задач в реальных репозиториях. Инструмент призван стандартизировать тестирование агентных систем, которые способны автономно взаимодействовать с файловой системой и средой разработки для решения задач программирования.

← Все материалы