arXiv · 12.06.2026 ·Исследования и наука

ClinHallu: новый бенчмарк для диагностики галлюцинаций в медицинских MLLM

Исследователи представили ClinHallu — новый бенчмарк для выявления и анализа галлюцинаций в медицинских мультимодальных языковых моделях (MLLM). Проблема галлюцинаций особенно критична в медицине, где ошибки могут привести к неверным клиническим решениям. Существующие бенчмарки фокусируются на сборе данных, но не анализируют, на каком этапе возникают галлюцинации.

ClinHallu предлагает диагностировать галлюцинации на разных стадиях: от визуального распознавания до медицинского анализа. Исследование показывает, что источники ошибок могут варьироваться в зависимости от конкретного случая. Например, ошибки могут возникать из-за неправильного распознавания изображений или неверного медицинского заключения.

Для разработчиков медицинских ИИ-агентов этот бенчмарк может стать важным инструментом. Он позволяет не только выявлять галлюцинации, но и понимать их причины, что помогает улучшать модели. ClinHallu может быть полезен при создании надежных систем поддержки клинических решений, где точность и достоверность критически важны.

Исследование подчеркивает необходимость более глубокого анализа ошибок в MLLM. Понимание, на каком этапе возникают галлюцинации, позволяет разрабатывать более надежные и безопасные медицинские ИИ-системы. ClinHallu — важный шаг в этом направлении, который может повлиять на будущее медицинских ИИ-агентов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Оценка и бенчмарки Метод Лос-Аламосской лаборатории для выявления галлюцинаций в мультимодальных моделях Исследователи из Лос-Аламосской национальной лаборатории представили новый подход к диагностике ошибок в работе мультимодальных моделей, объединяющих зрение и язык. Основная проблема таких систем заключается в склонности к «галлюцинациям» — генерации описаний объектов или событий, которых нет на исходном изображении. Разработанный метод позволяет более точно отслеживать соответствие между визуальными данными и текстовым выводом модели. arXiv · Оценка и бенчмарки Новый бенчмарк для оценки клинического мышления мультимодальных моделей Исследователи представили новый подход к оценке мультимодальных языковых моделей (MLLM) в медицине, имитирующий реальный процесс диагностики. В отличие от статических тестов, новая методика фокусируется на многоходовом взаимодействии, где информация о пациенте раскрывается постепенно, требуя от ИИ динамического обновления гипотез и непрерывного уточнения клинических выводов на основе визуальных и текстовых данных. arXiv · Оценка и бенчмарки Новый бенчмарк для оценки коррекции заблуждений в медицинских диалогах с LLM Исследователи представили новый метод оценки способности больших языковых моделей распознавать и исправлять ложные медицинские убеждения пациентов в ходе многоходовых диалогов. Текущие системы часто игнорируют ошибочные предпосылки в запросах, что создает риски при использовании ИИ в здравоохранении. Новый подход фокусируется на безопасности коммуникации и точности корректирующей обратной связи в сложных клинических сценариях. arXiv · Оценка и бенчмарки CLExEval: новый фреймворк для оценки клинического мышления LLM Исследователи представили CLExEval — фреймворк с участием человека (human-in-the-loop), предназначенный для качественной оценки клинического мышления больших языковых моделей. Инструмент решает проблему «иллюзии оценки», когда грамматически верные и структурированные ответы моделей создают ложное впечатление экспертной точности, скрывая фактические ошибки в медицинских диагнозах и логических цепочках рассуждений. arXiv · Исследования и наука Мультимодальные LLM для ранней диагностики когнитивных нарушений по речи Исследователи представили новый подход к выявлению когнитивных нарушений (CI) на основе анализа речи с использованием мультимодальных больших языковых моделей. Метод объединяет лингвистические и акустические маркеры, позволяя эффективно отслеживать признаки снижения когнитивных функций. Технология предлагает неинвазивную альтернативу традиционным методам диагностики, обеспечивая высокую точность анализа и потенциал для раннего вмешательства в клинической практике. arXiv · Исследования и наука ClinFusion: мультимодальная модель для комплексного анализа медицинских изображений Исследователи представили ClinFusion — специализированную мультимодальную языковую модель (MLLM), разработанную для глубокого анализа медицинских данных. Система ориентирована на обработку гетерогенных 2D и 3D изображений, что позволяет ей интерпретировать сложные клинические случаи. Архитектура модели направлена на повышение точности диагностики и соответствие стандартам работы практикующих радиологов, обеспечивая высокую фактологическую достоверность ответов при интерпретации визуальной медицинской информации. Hacker News · Оценка и бенчмарки Новый бенчмарк для оценки ИИ в повседневной медицинской помощи Исследователи из Mass General Brigham представили специализированный бенчмарк для оценки эффективности больших языковых моделей в клинической практике. Инструмент предназначен для проверки того, насколько корректно ИИ справляется с типичными задачами врача: постановкой предварительных диагнозов, интерпретацией симптомов и формированием планов лечения на основе данных пациентов. Hacker News · Разработка и инструменты Hallucinate.md: открытый стандарт для борьбы с галлюцинациями ИИ Проект Hallucinate.md представил открытый стандарт разметки, предназначенный для управления поведением LLM и минимизации галлюцинаций. Формат позволяет разработчикам явно указывать модели, какие данные являются достоверными, а какие требуют строгой верификации, внедряя инструкции по ограничению фантазий непосредственно в контекст запроса через стандартизированные теги, что упрощает интеграцию в существующие агентные пайплайны. arXiv · Оценка и бенчмарки Новый бенчмарк для проверки активного зрения у мультимодальных моделей Исследователи представили новый бенчмарк для оценки способности мультимодальных моделей (MLLM) к «активному наблюдению». В отличие от стандартных тестов, анализирующих статические изображения, этот метод проверяет, как модели управляют вниманием и корректируют гипотезы в процессе обработки визуальной информации, имитируя человеческий подход к восприятию, основанный на непрерывном цикле обратной связи и перенаправлении взгляда. arXiv · Оценка и бенчмарки Ограничения LLM-судей в медицинской диагностике Исследователи представили MedQADE — первый стандартизированный бенчмарк для оценки открытых ответов медицинских ИИ-моделей на немецком языке. Работа выявила критический разрыв: автоматизированные LLM-судьи часто не способны воспроизвести клиническую осторожность и точность, свойственную врачам, что ставит под сомнение надежность текущих методов оценки ИИ в медицине при использовании LLM в качестве арбитров.

← Все материалы