arXiv · 30.06.2026 ·Исследования и наука

Метод Token-Sparse для улучшения медицинской диагностики в мультимодальных моделях

Исследователи представили метод обучения мультимодальных моделей (VLM), оптимизированный для анализа медицинских изображений. Новый подход использует двухпотоковое обучение с подкреплением (RL) для динамической фильтрации визуальных токенов. Это позволяет модели игнорировать нерелевантные области снимка и фокусироваться на критически важных признаках, что значительно повышает точность клинических решений в условиях дефицита визуальных данных.

Медицинские изображения часто содержат огромные объемы данных, где полезная информация занимает лишь малую часть пространства. Традиционные модели часто «шумят», обрабатывая избыточные визуальные токены, что приводит к ошибкам в интерпретации. Предложенный фреймворк активно отсекает лишние данные, оставляя только те области, которые имеют прямое отношение к патологии, что делает процесс рассуждения более прозрачным и точным.

Технология опирается на архитектуру, где агент обучения с подкреплением обучается выделять наиболее информативные регионы изображения. Такой подход не только снижает вычислительную нагрузку, но и решает проблему «разреженности» визуальных доказательств, характерную для рентгеновских снимков, МРТ и гистологических слайдов. Метод демонстрирует эффективность в задачах, требующих высокой точности при ограниченном количестве диагностических признаков.

Ключевые факты

Разработан метод двухпотокового обучения с подкреплением (Dual-Stream RL) для работы с медицинскими VLM.
Основная задача алгоритма — динамическое удаление (pruning) визуальных токенов вне областей, имеющих клиническое значение.
Решение направлено на устранение проблемы избыточности данных в сложных медицинских изображениях.
Подход позволяет моделям лучше справляться с задачами мультимодального рассуждения, где визуальные доказательства крайне разрежены.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Метод Visual Skipping для ускорения инференса мультимодальных моделей Исследователи представили метод Visual Skipping, позволяющий оптимизировать работу мультимодальных LLM при обработке длинных визуальных последовательностей. В отличие от традиционных подходов, удаляющих целые токены или слои, новый алгоритм выборочно пропускает вычисления на уровне отдельных операторов. Это позволяет сохранять важные визуальные детали, значительно снижая вычислительную нагрузку и ускоряя генерацию ответов без существенной потери качества. arXiv · Исследования и наука Автоматизированное обучение мультимодальных моделей для радиологии Исследователи представили метод обучения визуально-языковых моделей (VLM) для анализа медицинских изображений без необходимости ручной разметки пространственных данных. В основе подхода лежит набор данных RefRad2D, включающий 1,2 миллиона пар снимков КТ и МРТ с описаниями на английском и немецком языках. Этот массив данных был сформирован на основе реальной клинической практики. arXiv · Машинное обучение Новый метод обучения мультимодальных моделей через разделение восприятия и рассуждения Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации. Hacker News · Оценка и бенчмарки Метод Лос-Аламосской лаборатории для выявления галлюцинаций в мультимодальных моделях Исследователи из Лос-Аламосской национальной лаборатории представили новый подход к диагностике ошибок в работе мультимодальных моделей, объединяющих зрение и язык. Основная проблема таких систем заключается в склонности к «галлюцинациям» — генерации описаний объектов или событий, которых нет на исходном изображении. Разработанный метод позволяет более точно отслеживать соответствие между визуальными данными и текстовым выводом модели. arXiv · Машинное обучение Адаптивный выбор токенов для оптимизации обучения LLM с подкреплением Исследователи представили метод Relative Surprisal Index (RSI) для оптимизации обучения LLM с помощью подкрепления с проверяемыми наградами (RLVR). Новый подход позволяет динамически определять, какие токены в процессе генерации рассуждений наиболее важны для достижения правильного результата. Это снижает вычислительные затраты и повышает эффективность обучения моделей при решении сложных логических задач. arXiv · Инференс и железо Оптимизация визуального инференса через проактивную маршрутизацию запросов Исследователи предложили метод повышения эффективности мультимодальных моделей при выполнении сложных визуальных задач. Система использует связку из компактной «черновой» модели и крупной целевой модели, применяя адаптивный механизм маршрутизации. В зависимости от сложности запроса, система автоматически определяет, какая модель должна обрабатывать данные, что позволяет сократить избыточные вычисления и ускорить процесс рассуждения. arXiv · Машинное обучение Метод RiVER позволяет обучать LLM с подкреплением без эталонных ответов Исследователи представили фреймворк RiVER (Ranking-induced VERifiable), который позволяет обучать языковые модели методом обучения с подкреплением (RL) в задачах, где отсутствуют заранее известные эталонные решения. Вместо сравнения с «золотым стандартом» система использует ранжирование ответов для оптимизации, что расширяет возможности применения RL в областях, где оценка качества результата носит субъективный или эвристический характер. arXiv · Исследования и наука Video-SALMONN-R3: новый метод эффективного анализа видео через двухэтапную обработку Исследователи представили Video-SALMONN-R3 — архитектуру для видео-LLM, решающую проблему нехватки вычислительных ресурсов. Вместо обработки всего видео целиком, модель сначала проводит грубый анализ для поиска ключевых сегментов, а затем детально пересматривает их. Такой подход позволяет значительно экономить память и вычислительную мощность, сохраняя высокую точность ответов на вопросы по видеоконтенту. arXiv · Исследования и наука Исследование Tandem RLVR: как улучшить логику LLM через проверяемые награды Исследователи представили метод Tandem Reinforcement Learning with Verifiable Rewards (RLVR), направленный на повышение логических способностей больших языковых моделей. Метод решает проблему дрейфа модели в сторону неэффективных или идиосинкразических паттернов рассуждений, которые часто возникают при стандартном обучении с подкреплением, обеспечивая более стабильное достижение экспертных результатов в сложных задачах, таких как олимпиадная математика. arXiv · Машинное обучение Метод MAST для точечного удаления нежелательных навыков рассуждения в LLM Исследователи представили метод MAST (Mechanism-Aligned Selective Targeting), предназначенный для избирательного удаления специфических паттернов рассуждения, привитых моделям через обучение с подкреплением (RLVR). Традиционные подходы к «забыванию» (unlearning) часто приводят к деградации общих способностей модели из-за полнопараметрических обновлений. Новый метод позволяет изолировать и корректировать только те веса, которые отвечают за конкретные логические цепочки, минимизируя побочный ущерб для базовых знаний модели.

← Все материалы