Исследователи представили CLExEval — фреймворк с участием человека (human-in-the-loop), предназначенный для качественной оценки клинического мышления больших языковых моделей. Инструмент решает проблему «иллюзии оценки», когда грамматически верные и структурированные ответы моделей создают ложное впечатление экспертной точности, скрывая фактические ошибки в медицинских диагнозах и логических цепочках рассуждений.

Традиционные медицинские бенчмарки часто фокусируются на выборе правильного ответа из предложенных вариантов, что не позволяет оценить глубину врачебной логики. CLExEval переносит фокус на анализ процесса принятия решений, требуя от модели обоснования каждого шага. Включение экспертов-людей в цикл оценки позволяет выявлять скрытые галлюцинации и логические разрывы, которые остаются незамеченными автоматизированными метриками.

Методология предполагает детальный разбор сгенерированных моделью объяснений на предмет их клинической достоверности и соответствия стандартам доказательной медицины. Это позволяет не просто фиксировать факт ошибки, но и понимать, на каком этапе рассуждений модель отклоняется от верного алгоритма диагностики, что критически важно для внедрения ИИ в реальную клиническую практику.

Ключевые факты

  • CLExEval разработан для борьбы с «иллюзией оценки», при которой убедительный стиль изложения маскирует неверные медицинские выводы.
  • Фреймворк использует гибридный подход, сочетающий автоматизированные тесты с экспертной оценкой клинического мышления.
  • Основная цель системы — верификация логических цепочек, лежащих в основе постановки диагноза, а не только итогового результата.
  • Методика позволяет выявлять системные ошибки в рассуждениях моделей, которые не фиксируются стандартными тестами с множественным выбором.