Исследователи представили EHRNote-ChatQA — бенчмарк для оценки систем, способных отвечать на сложные медицинские вопросы с опорой на доказательства. Он основан на выписках пациентов (discharge summaries), которые содержат ключевую информацию о госпитализации и используются врачами для принятия решений.

Основная особенность EHRNote-ChatQA — многоповоротный формат, где система должна анализировать несколько выписок, синтезировать данные и подтверждать ответы ссылками на конкретные фрагменты текста. Это критически важно для медицинских ИИ-агентов, так как врачи требуют прозрачности и обоснованности выводов.

Бенчмарк включает 10 000 вопросов, связанных с диагнозами, лечением и прогнозами. Для оценки предложены метрики, учитывающие как точность, так и качество доказательств. Исследование показывает, что современные модели, включая GPT-4, справляются с задачей не идеально, что открывает пространство для улучшений.

Для разработчиков ИИ-агентов этот бенчмарк полезен как тестовая среда для проверки RAG-систем (Retrieval-Augmented Generation) и модулей работы с длинными документами. В медицинской сфере особенно важны точность и интерпретируемость, поэтому EHRNote-ChatQA может стать стандартом для оценки клинических чат-ботов и агентов.