Исследователи представили метод обучения визуально-языковых моделей (VLM) для анализа медицинских изображений без необходимости ручной разметки пространственных данных. В основе подхода лежит набор данных RefRad2D, включающий 1,2 миллиона пар снимков КТ и МРТ с описаниями на английском и немецком языках. Этот массив данных был сформирован на основе реальной клинической практики.

Для автоматизации процесса подготовки обучающей выборки использовались LLM, которые выполняли курацию контента и сегментацию изображений. Такой подход позволяет создавать специализированные наборы данных для задач визуально-ответных систем (VQA) и пространственного позиционирования объектов на снимках, что значительно сокращает трудозатраты на подготовку размеченных медицинских датасетов.

Разработанная модель демонстрирует способность точно соотносить текстовые описания с конкретными областями на медицинских изображениях. Использование автоматизированной генерации аннотаций открывает путь к масштабируемому обучению узкоспециализированных ИИ-систем, способных интерпретировать сложные диагностические данные в радиологии с высокой точностью.