Современные модели искусственного интеллекта демонстрируют высокие результаты при сдаче стандартизированных медицинских экзаменов, однако их эффективность резко снижается при работе с реальными клиническими случаями. Исследование показало, что академические тесты, на которых обучаются и тестируются алгоритмы, не отражают сложности диагностики и ведения пациентов в условиях стационара.

Основная проблема заключается в разрыве между теоретическими знаниями, заложенными в обучающие выборки, и неструктурированными данными из реальной медицинской практики. ИИ часто упускает контекст, не учитывает сопутствующие заболевания или противоречивые симптомы, которые врач оценивает комплексно. В тестах модели опираются на четкие формулировки вопросов, тогда как в реальности информация о пациенте бывает неполной или искаженной.

Эксперты подчеркивают, что текущие бенчмарки для медицинского ИИ требуют пересмотра. Вместо проверки способности отвечать на вопросы с множественным выбором, разработчикам необходимо внедрять сценарии, имитирующие динамическое наблюдение за состоянием больного. Без интеграции в клинические рабочие процессы и учета реальных факторов риска, использование таких систем в диагностике остается ограниченным и требует обязательного контроля со стороны специалистов.