Исследователи представили MedQADE — первый стандартизированный бенчмарк для оценки открытых ответов медицинских ИИ-моделей на немецком языке. Работа выявила критический разрыв: автоматизированные LLM-судьи часто не способны воспроизвести клиническую осторожность и точность, свойственную врачам, что ставит под сомнение надежность текущих методов оценки ИИ в медицине при использовании LLM в качестве арбитров.

Традиционные бенчмарки с множественным выбором часто не отражают реальную клиническую практику, где важна аргументация и контекст. Переход к оценке открытых ответов повышает валидность, но создает «бутылочное горлышко» из-за необходимости экспертной проверки. Использование LLM для автоматизации этого процесса стало популярным решением, однако авторы исследования доказали, что такие модели склонны к излишней самоуверенности и игнорированию рисков, которые опытный клиницист обязан учитывать.

Результаты показывают, что текущие методы автоматической оценки не могут полноценно заменить человеческую экспертизу в критически важных областях. Модели-судьи часто упускают нюансы дифференциальной диагностики и не демонстрируют должной осторожности при постановке диагнозов, что делает их использование в качестве единственного инструмента валидации медицинских систем потенциально опасным.

Ключевые факты

  • MedQADE — первый стандартизированный бенчмарк для клинических ответов на немецком языке.
  • Исследование подтвердило, что LLM-судьи не обладают «клинической осторожностью», характерной для врачей-специалистов.
  • Автоматизированная оценка открытых ответов через LLM часто приводит к завышенным показателям точности из-за неспособности модели распознать опасные ошибки.
  • Бенчмарк направлен на устранение дефицита инструментов оценки для языков, где отсутствуют крупные медицинские датасеты.