arXiv · 18.06.2026 ·Исследования и наука

Автоматизированное обучение мультимодальных моделей для радиологии

Исследователи представили метод обучения визуально-языковых моделей (VLM) для анализа медицинских изображений без необходимости ручной разметки пространственных данных. В основе подхода лежит набор данных RefRad2D, включающий 1,2 миллиона пар снимков КТ и МРТ с описаниями на английском и немецком языках. Этот массив данных был сформирован на основе реальной клинической практики.

Для автоматизации процесса подготовки обучающей выборки использовались LLM, которые выполняли курацию контента и сегментацию изображений. Такой подход позволяет создавать специализированные наборы данных для задач визуально-ответных систем (VQA) и пространственного позиционирования объектов на снимках, что значительно сокращает трудозатраты на подготовку размеченных медицинских датасетов.

Разработанная модель демонстрирует способность точно соотносить текстовые описания с конкретными областями на медицинских изображениях. Использование автоматизированной генерации аннотаций открывает путь к масштабируемому обучению узкоспециализированных ИИ-систем, способных интерпретировать сложные диагностические данные в радиологии с высокой точностью.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

MarkTechPost · Машинное обучение NeuroVFM: новая фундаментальная модель для анализа медицинских изображений Исследователи из Мичиганского университета представили NeuroVFM — универсальную фундаментальную модель для нейровизуализации. Она обучена на 5,24 млн клинических снимков МРТ и КТ с использованием архитектуры Vol-JEPA. Модель способна распознавать анатомические структуры мозга и патологии без необходимости в предварительной разметке радиологами, что значительно упрощает обработку больших объемов неструктурированных медицинских данных. arXiv · Исследования и наука Метод Token-Sparse для улучшения медицинской диагностики в мультимодальных моделях Исследователи представили метод обучения мультимодальных моделей (VLM), оптимизированный для анализа медицинских изображений. Новый подход использует двухпотоковое обучение с подкреплением (RL) для динамической фильтрации визуальных токенов. Это позволяет модели игнорировать нерелевантные области снимка и фокусироваться на критически важных признаках, что значительно повышает точность клинических решений в условиях дефицита визуальных данных. arXiv · Исследования и наука Новый метод обучения моделей для анализа КТ-снимков с учетом анатомических деталей Исследователи представили метод Anatomy Contextualized Adaption (ACA) для улучшения работы мультимодальных моделей в радиологии. Традиционные подходы к обучению на КТ-снимках часто используют представление всего объема данных, что приводит к потере мелких анатомических деталей. Новый подход позволяет эффективно совмещать глобальный контекст изображения с локальными признаками конкретных органов, повышая точность диагностики и интерпретации медицинских данных. arXiv · Исследования и наука Уроки проектирования надежных мультимодальных систем для медицины Исследователи проанализировали девять мультимодальных систем для визуального вопросно-ответного анализа (VQA) в медицине, используя данные эндоскопии желудочно-кишечного тракта MediaEval Medico 2025. Работа фокусируется на создании интерпретируемых и надежных моделей, способных эффективно объединять визуальные и текстовые данные. Авторы выявили ключевые архитектурные решения, которые позволяют повысить точность диагностики и качество объяснений, выходя за рамки стандартных метрик лидербордов. Hacker News · ИИ в бизнесе Кейс использования Claude Code для анализа медицинских изображений Разработчик Антуан Блондо применил инструмент Claude Code для интерпретации результатов собственного МРТ-сканирования. Используя возможности модели Claude 3.5 Sonnet, он автоматизировал процесс анализа DICOM-файлов, сопоставив полученные данные с медицинскими справочниками. Результат показал высокую точность в выявлении патологий, что подчеркивает потенциал агентных систем в поддержке принятия врачебных решений и первичной диагностике. Hacker News · Оценка и бенчмарки Метод Лос-Аламосской лаборатории для выявления галлюцинаций в мультимодальных моделях Исследователи из Лос-Аламосской национальной лаборатории представили новый подход к диагностике ошибок в работе мультимодальных моделей, объединяющих зрение и язык. Основная проблема таких систем заключается в склонности к «галлюцинациям» — генерации описаний объектов или событий, которых нет на исходном изображении. Разработанный метод позволяет более точно отслеживать соответствие между визуальными данными и текстовым выводом модели. The Decoder · Оценка и бенчмарки Бенчмарк RadLE 2.0 выявил чрезмерную самоуверенность ИИ в радиологии Новый бенчмарк RadLE 2.0 показал, что современные ИИ-модели, анализирующие рентгеновские снимки, часто демонстрируют высокую уверенность в ошибочных диагнозах. Исследование подчеркивает критическую проблему: нейросети пока не способны адекватно оценивать границы своей компетенции и передавать сложные случаи врачам. В текущем состоянии ИИ-системы значительно уступают профессиональным радиологам в точности и способности к самокритике при постановке медицинских заключений. arXiv · Исследования и наука ClinFusion: мультимодальная модель для комплексного анализа медицинских изображений Исследователи представили ClinFusion — специализированную мультимодальную языковую модель (MLLM), разработанную для глубокого анализа медицинских данных. Система ориентирована на обработку гетерогенных 2D и 3D изображений, что позволяет ей интерпретировать сложные клинические случаи. Архитектура модели направлена на повышение точности диагностики и соответствие стандартам работы практикующих радиологов, обеспечивая высокую фактологическую достоверность ответов при интерпретации визуальной медицинской информации. arXiv · Исследования и наука Масштабируемое визуальное предобучение для развития языковых моделей Исследователи представили новый подход к предобучению нейросетей, который интегрирует визуальные данные — графики, формулы и макеты страниц — в процесс обучения языковых моделей. Текущие методы часто игнорируют визуальный контекст, ограничиваясь текстовыми корпусами, что лишает модели доступа к критически важной информации, передаваемой через структуру и визуальные элементы документов. arXiv · Оценка и бенчмарки Исследование устойчивости VLM к визуальным искажениям при распознавании текста Исследователи проанализировали устойчивость мультимодальных моделей (VLM) к деградации изображений при выполнении задач OCR-рассуждений. Работа выявила, что даже незначительные визуальные помехи существенно снижают точность распознавания и логических выводов моделей. Авторы представили методологию оценки, позволяющую измерить влияние структурных искажений и шума на способность нейросетей интерпретировать текст на сложных визуальных данных.

← Все материалы