Исследователи представили SHOVIR — специализированный бенчмарк для оценки Vision-Language моделей в задачах генерации радиологических отчетов. Инструмент выявляет «короткие пути» обучения, когда модель имитирует правильные ответы, опираясь на статистические закономерности в текстах, а не на реальные патологические признаки на медицинских снимках. Это критически важно для предотвращения галлюцинаций в диагностике.
Существующие метрики, такие как BLEU или ROUGE, оценивают лишь лексическое сходство с эталонным отчетом, что не гарантирует клиническую достоверность. Модели часто показывают высокие баллы, просто угадывая типичные фразы, характерные для определенных типов исследований, игнорируя визуальные данные. SHOVIR заставляет систему доказывать связь между конкретным диагностическим утверждением и областью на изображении, где зафиксирована патология.
Внедрение подобных инструментов необходимо для перехода от моделей, «хорошо пишущих тексты», к системам, способным проводить верифицируемый анализ медицинских изображений. Бенчмарк позволяет количественно измерить, насколько часто модель полагается на визуальные доказательства, что является ключевым требованием для внедрения ИИ в клиническую практику.
Ключевые факты
- SHOVIR фокусируется на выявлении «shortcut learning» — склонности моделей использовать статистические корреляции вместо анализа визуальных признаков.
- Традиционные метрики (лексическое совпадение) признаны недостаточными для оценки клинической точности генерации отчетов.
- Бенчмарк требует от модели прямой привязки диагностических выводов к конкретным визуальным областям на снимке.
- Инструмент направлен на повышение надежности Vision-Language моделей в узкоспециализированных медицинских задачах.