arXiv · 16.06.2026 ·Исследования и наука

Новый метод для мультимодального разрешения кореферентности без предварительного обучения

Исследователи предложили новый подход Plug-and-Adapt для мультимодального разрешения кореферентности (MCR), который не требует предварительного обучения на аннотированных данных. В статье на arXiv показано, что визуальная информация помогает устранять неоднозначности в тексте, что значительно повышает точность системы.

Традиционные методы MCR нуждаются в обучении на данных конкретного набора, что ограничивает их применимость и вызывает вопросы о обобщаемости. Новый метод использует предобученную модель выравнивания, что позволяет применять его без дополнительного обучения.

Авторы сравнили Plug-and-Adapt с существующими подходами и продемонстрировали его преимущества в задачах, где требуется связь между текстом и визуальными данными. Исследование может стать основой для новых решений в обработке мультимодальных данных.

Работа опубликована на arXiv и доступна для дальнейшего изучения.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Модели и релизы Новый метод обучения для мультимодального математического мышления Исследователи предложили новый подход к обучению мультимодальных моделей для решения математических задач. В статье на arXiv представлен метод MathVis-Fine, который учитывает сложные зависимости между текстом и изображениями в процессе решения задач. arXiv · Машинное обучение Новый метод обучения мультимодальных моделей через разделение восприятия и рассуждения Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации. arXiv · Исследования и наука AIR: новый подход к адаптивному рассуждению в мультимодальных моделях Исследователи представили метод Adaptive Interleaved Reasoning (AIR), направленный на улучшение логических способностей мультимодальных больших языковых моделей (MLLM). В отличие от существующих решений, которые полагаются на жестко заданные эвристики для обработки визуальных данных, новый подход позволяет моделям динамически использовать код для построения цепочек рассуждений. Это дает возможность системе самостоятельно определять, когда и как применять программные инструменты для решения сложных задач, требующих глубокого анализа изображений. arXiv · Память и RAG CORA: метод для устранения разрыва между мышлением и ответом в многомодальных ИИ-агентах Исследователи из MIT и других ведущих университетов представили метод CORA (Consistency-Oriented Reasoning Alignment), который решает проблему несоответствия между процессом рассуждений и конечным ответом в многомодальных системах с подкрепляющим обучением и проверяемыми вознаграждениями (RLVR). arXiv · Исследования и наука Новый метод функционального выравнивания данных мозга для кросс-субъектного декодирования Исследователи представили алгоритм для функционального выравнивания активности мозга, который решает проблему высокой индивидуальной вариативности паттернов нейронного отклика. Метод позволяет эффективно сопоставлять данные разных людей, что критически важно для создания универсальных моделей декодирования когнитивных процессов. Технология учитывает геометрические особенности структуры мозга, обеспечивая высокую точность при значительном ускорении вычислительных процессов по сравнению с существующими подходами. arXiv · Исследования и наука Новый метод обучения разреженных автокодировщиков для мультимодальных моделей Исследователи представили метод структурированных разреженных автокодировщиков (SAE), решающий проблему фрагментации концептов в мультимодальных моделях. Традиционные SAE часто не могут связать визуальные и текстовые представления, выделяя разрозненные признаки. Новый подход обеспечивает согласованность концептов между модальностями, что критически важно для интерпретируемости нейросетей и понимания того, как модели связывают изображения с текстом. arXiv · Машинное обучение Новый метод адаптации CLIP для работы с редкими данными Исследователи представили метод Concept-Constrained Prompt Learning (CCPL), направленный на повышение эффективности адаптации мультимодальных моделей, таких как CLIP, к новым задачам при ограниченном количестве обучающих примеров. Традиционные подходы к настройке промптов часто приводят к переобучению на базовых классах, что снижает точность распознавания объектов, которые не встречались в процессе обучения. arXiv · Инференс и железо Оптимизация визуального инференса через проактивную маршрутизацию запросов Исследователи предложили метод повышения эффективности мультимодальных моделей при выполнении сложных визуальных задач. Система использует связку из компактной «черновой» модели и крупной целевой модели, применяя адаптивный механизм маршрутизации. В зависимости от сложности запроса, система автоматически определяет, какая модель должна обрабатывать данные, что позволяет сократить избыточные вычисления и ускорить процесс рассуждения. arXiv · Исследования и наука Метод MIRROR улучшает визуальные рассуждения мультимодальных моделей Исследователи представили метод MIRROR, направленный на устранение разрыва в логических способностях мультимодальных моделей (VLM). В отличие от LLM, VLM часто демонстрируют нестабильные результаты при работе с визуальными данными, даже если задача имеет текстовый эквивалент. Новый подход обучает модели сопоставлять и интегрировать информацию из различных представлений — текста, диаграмм и их комбинаций — для повышения точности рассуждений. arXiv · Память и RAG Как RAG помогает бороться с галлюцинациями в мультимодальных моделях Исследователи из MIT и других ведущих университетов предложили новый подход к снижению визуальных галлюцинаций в мультимодальных языковых моделях (MLLMs). Эти системы, способные обрабатывать как текстовые, так и визуальные данные, часто демонстрируют уверенность в своих ответах, даже когда визуальные данные слабые или неоднозначные. Это приводит к так называемым "галлюцинациям" — выводам, не соответствующим реальности.

← Все материалы