Исследователи из Mass General Brigham представили специализированный бенчмарк для оценки эффективности больших языковых моделей в клинической практике. Инструмент предназначен для проверки того, насколько корректно ИИ справляется с типичными задачами врача: постановкой предварительных диагнозов, интерпретацией симптомов и формированием планов лечения на основе данных пациентов.

В отличие от стандартных медицинских тестов, которые часто фокусируются на теоретических знаниях, новый бенчмарк моделирует реальные сценарии из повседневной работы клиник. Система оценивает точность рекомендаций, полноту сбора анамнеза и соблюдение протоколов безопасности. Это позволяет выявить критические ошибки, которые модели могут допускать при обработке неструктурированной информации из электронных медицинских карт.

Результаты тестирования показывают, что даже современные модели демонстрируют разную степень надежности в зависимости от сложности клинического случая. Разработчики бенчмарка подчеркивают, что использование подобных систем оценки необходимо для безопасного внедрения ИИ-ассистентов в систему здравоохранения. Стандартизированный подход к проверке моделей помогает минимизировать риски галлюцинаций и повысить качество поддержки принятия врачебных решений.