Исследователи представили специализированный набор данных для тестирования навыков клинического мышления у передовых языковых моделей. В отличие от стандартных тестов с выбором ответа, новый бенчмарк фокусируется на открытых сценариях, составленных практикующими врачами. Результаты показывают, что даже топовые модели демонстрируют низкую эффективность в сложных медицинских задачах, где точность ответов в «сложном» сегменте не превышает 32%.

Текущие медицинские бенчмарки, основанные на тестах с множественным выбором, достигли порога насыщения, что затрудняет объективную оценку реальных способностей ИИ в медицине. Новый подход требует от моделей не просто выбора правильного варианта, а полноценного клинического рассуждения, имитирующего работу врача при постановке диагноза и выборе тактики лечения.

Авторы исследования подчеркивают, что разрыв между результатами моделей на стандартных тестах и их реальной производительностью в клинической практике остается критическим. Использование экспертных рубрик позволяет более точно измерять способность ИИ к логическому выводу, учету анамнеза и обоснованию медицинских решений в условиях неопределенности.

Ключевые факты

  • Бенчмарк включает пять сложных клинических сценариев, разработанных практикующими врачами.
  • Задачи охватывают четыре медицинские специальности, включая анестезиологию и внутреннюю медицину.
  • Максимальный результат моделей в «сложном» (Hard) сегменте текущих тестов составляет всего 32%.
  • Методология основана на экспертных рубриках, оценивающих качество открытых ответов, а не просто выбор правильного варианта.