arXiv · 14.06.2026 ·Память и RAG

Новый бенчмарк для клинического QA с доказательствами

Исследователи представили EHRNote-ChatQA — бенчмарк для оценки систем, способных отвечать на сложные медицинские вопросы с опорой на доказательства. Он основан на выписках пациентов (discharge summaries), которые содержат ключевую информацию о госпитализации и используются врачами для принятия решений.

Основная особенность EHRNote-ChatQA — многоповоротный формат, где система должна анализировать несколько выписок, синтезировать данные и подтверждать ответы ссылками на конкретные фрагменты текста. Это критически важно для медицинских ИИ-агентов, так как врачи требуют прозрачности и обоснованности выводов.

Бенчмарк включает 10 000 вопросов, связанных с диагнозами, лечением и прогнозами. Для оценки предложены метрики, учитывающие как точность, так и качество доказательств. Исследование показывает, что современные модели, включая GPT-4, справляются с задачей не идеально, что открывает пространство для улучшений.

Для разработчиков ИИ-агентов этот бенчмарк полезен как тестовая среда для проверки RAG-систем (Retrieval-Augmented Generation) и модулей работы с длинными документами. В медицинской сфере особенно важны точность и интерпретируемость, поэтому EHRNote-ChatQA может стать стандартом для оценки клинических чат-ботов и агентов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Оценка и бенчмарки Новый бенчмарк для оценки ИИ в повседневной медицинской помощи Исследователи из Mass General Brigham представили специализированный бенчмарк для оценки эффективности больших языковых моделей в клинической практике. Инструмент предназначен для проверки того, насколько корректно ИИ справляется с типичными задачами врача: постановкой предварительных диагнозов, интерпретацией симптомов и формированием планов лечения на основе данных пациентов. arXiv · Оценка и бенчмарки Новый бенчмарк для оценки клинического мышления LLM Исследователи представили специализированный набор данных для тестирования навыков клинического мышления у передовых языковых моделей. В отличие от стандартных тестов с выбором ответа, новый бенчмарк фокусируется на открытых сценариях, составленных практикующими врачами. Результаты показывают, что даже топовые модели демонстрируют низкую эффективность в сложных медицинских задачах, где точность ответов в «сложном» сегменте не превышает 32%. arXiv · Оценка и бенчмарки Новый бенчмарк для оценки клинического мышления мультимодальных моделей Исследователи представили новый подход к оценке мультимодальных языковых моделей (MLLM) в медицине, имитирующий реальный процесс диагностики. В отличие от статических тестов, новая методика фокусируется на многоходовом взаимодействии, где информация о пациенте раскрывается постепенно, требуя от ИИ динамического обновления гипотез и непрерывного уточнения клинических выводов на основе визуальных и текстовых данных. arXiv · Оценка и бенчмарки Новый бенчмарк для оценки коррекции заблуждений в медицинских диалогах с LLM Исследователи представили новый метод оценки способности больших языковых моделей распознавать и исправлять ложные медицинские убеждения пациентов в ходе многоходовых диалогов. Текущие системы часто игнорируют ошибочные предпосылки в запросах, что создает риски при использовании ИИ в здравоохранении. Новый подход фокусируется на безопасности коммуникации и точности корректирующей обратной связи в сложных клинических сценариях. arXiv · Оценка и бенчмарки MedFailBench: новый подход к оценке безопасности медицинских ИИ-систем Исследователи представили MedFailBench — открытый бенчмарк для анализа критических ошибок медицинских ИИ-моделей. В отличие от стандартных тестов на точность ответов, этот инструмент фокусируется на выявлении границ безопасности. Набор данных, созданный практикующими врачами, классифицирует ошибки по уровням тяжести и типам нарушений, помогая разработчикам понять, в каких именно клинических сценариях модель ведет себя небезопасно. arXiv · Оценка и бенчмарки BioSecBench-Surveillance: бенчмарк для оценки ИИ-агентов в геномном надзоре Исследователи представили BioSecBench-Surveillance — специализированный бенчмарк для тестирования ИИ-агентов, работающих с данными геномного надзора за патогенами. Набор из 100 сценариев оценивает способность моделей самостоятельно подбирать аналитические пайплайны на основе сырых данных секвенирования и контекста эпидемиологической ситуации, имитируя реальные задачи специалистов в области биоинформатики и общественного здравоохранения. arXiv · Исследования и наука Уроки проектирования надежных мультимодальных систем для медицины Исследователи проанализировали девять мультимодальных систем для визуального вопросно-ответного анализа (VQA) в медицине, используя данные эндоскопии желудочно-кишечного тракта MediaEval Medico 2025. Работа фокусируется на создании интерпретируемых и надежных моделей, способных эффективно объединять визуальные и текстовые данные. Авторы выявили ключевые архитектурные решения, которые позволяют повысить точность диагностики и качество объяснений, выходя за рамки стандартных метрик лидербордов. arXiv · Исследования и наука Исследование: почему медицинские ИИ-чат-боты не справляются с реальными пациентами Исследователи проанализировали более 2000 реальных диалогов между пациентами и медицинскими чат-ботами, выявив критический разрыв между лабораторными тестами и практикой. Оказалось, что стандартные методы оценки ИИ, опирающиеся на симуляции с «идеальными» пользователями, не учитывают эмоциональную нестабильность и непредсказуемые паттерны общения реальных людей, что снижает эффективность диагностики и качество взаимодействия в здравоохранении. arXiv · ИИ в бизнесе Исследование: как пользователи оценивают работу медицинских ИИ-чат-ботов Исследователи проанализировали более 15 000 пользовательских отзывов о 59 медицинских ИИ-приложениях, чтобы оценить их эффективность в реальных условиях. Работа выявила критические сбои в предоставлении информации и эмоциональной поддержке, подчеркивая разрыв между ожиданиями пациентов и текущими возможностями алгоритмов при решении задач, связанных со здоровьем и самочувствием пользователей в повседневной жизни. arXiv · Оценка и бенчмарки Ограничения LLM-судей в медицинской диагностике Исследователи представили MedQADE — первый стандартизированный бенчмарк для оценки открытых ответов медицинских ИИ-моделей на немецком языке. Работа выявила критический разрыв: автоматизированные LLM-судьи часто не способны воспроизвести клиническую осторожность и точность, свойственную врачам, что ставит под сомнение надежность текущих методов оценки ИИ в медицине при использовании LLM в качестве арбитров.

← Все материалы