Исследователи представили MedQADE — первый стандартизированный бенчмарк для оценки открытых ответов медицинских ИИ-моделей на немецком языке. Работа выявила критический разрыв: автоматизированные LLM-судьи часто не способны воспроизвести клиническую осторожность и точность, свойственную врачам, что ставит под сомнение надежность текущих методов оценки ИИ в медицине при использовании LLM в качестве арбитров.
Традиционные бенчмарки с множественным выбором часто не отражают реальную клиническую практику, где важна аргументация и контекст. Переход к оценке открытых ответов повышает валидность, но создает «бутылочное горлышко» из-за необходимости экспертной проверки. Использование LLM для автоматизации этого процесса стало популярным решением, однако авторы исследования доказали, что такие модели склонны к излишней самоуверенности и игнорированию рисков, которые опытный клиницист обязан учитывать.
Результаты показывают, что текущие методы автоматической оценки не могут полноценно заменить человеческую экспертизу в критически важных областях. Модели-судьи часто упускают нюансы дифференциальной диагностики и не демонстрируют должной осторожности при постановке диагнозов, что делает их использование в качестве единственного инструмента валидации медицинских систем потенциально опасным.
Ключевые факты
- MedQADE — первый стандартизированный бенчмарк для клинических ответов на немецком языке.
- Исследование подтвердило, что LLM-судьи не обладают «клинической осторожностью», характерной для врачей-специалистов.
- Автоматизированная оценка открытых ответов через LLM часто приводит к завышенным показателям точности из-за неспособности модели распознать опасные ошибки.
- Бенчмарк направлен на устранение дефицита инструментов оценки для языков, где отсутствуют крупные медицинские датасеты.