arXiv · 18.06.2026 ·Исследования и наука

Новый метод ELVA для улучшения универсального мультимодального поиска

Исследователи представили метод ELVA (Exploring Ranking-Driven Universal Multimodal Retrieval), направленный на повышение точности мультимодального поиска. Современные мультимодальные языковые модели часто сталкиваются с проблемой «зернистой слепоты» (grain blindness), при которой система игнорирует детализированную информацию в данных, фокусируясь лишь на общих признаках объекта. Это ограничение снижает эффективность поиска в задачах, требующих высокой точности сопоставления визуальных и текстовых элементов.

Авторы работы предложили архитектуру, основанную на ранжировании, которая позволяет лучше интегрировать мелкозернистые признаки в процесс обучения. В отличие от стандартных подходов, использующих контрастивное обучение, ELVA переключает фокус на ранжирование релевантных объектов. Это позволяет модели эффективнее различать тонкие различия между похожими изображениями и текстовыми запросами, что критически важно для сложных поисковых систем.

Эксперименты показали, что предложенный метод превосходит существующие аналоги в задачах универсального мультимодального поиска. Использование ранжирования как основного драйвера обучения помогает модели лучше улавливать контекстные связи, которые ранее оставались незамеченными. Разработка открывает новые возможности для создания более точных инструментов поиска по визуальному контенту, где требуется глубокое понимание структуры и деталей объектов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука Новый метод обучения разреженных автокодировщиков для мультимодальных моделей Исследователи представили метод структурированных разреженных автокодировщиков (SAE), решающий проблему фрагментации концептов в мультимодальных моделях. Традиционные SAE часто не могут связать визуальные и текстовые представления, выделяя разрозненные признаки. Новый подход обеспечивает согласованность концептов между модальностями, что критически важно для интерпретируемости нейросетей и понимания того, как модели связывают изображения с текстом. arXiv · Машинное обучение Новый метод обучения мультимодальных моделей через разделение восприятия и рассуждения Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации. arXiv · Память и RAG Как RAG помогает бороться с галлюцинациями в мультимодальных моделях Исследователи из MIT и других ведущих университетов предложили новый подход к снижению визуальных галлюцинаций в мультимодальных языковых моделях (MLLMs). Эти системы, способные обрабатывать как текстовые, так и визуальные данные, часто демонстрируют уверенность в своих ответах, даже когда визуальные данные слабые или неоднозначные. Это приводит к так называемым "галлюцинациям" — выводам, не соответствующим реальности. arXiv · Машинное обучение Метод Relevance-Based Embeddings для оптимизации поиска в больших системах Исследователи представили метод Relevance-Based Embeddings, позволяющий ускорить поиск релевантных объектов в масштабных системах. Технология оптимизирует процесс извлечения кандидатов, используя легковесные векторные представления, которые обучаются на основе предсказаний тяжелых моделей ранжирования. Это позволяет сократить вычислительные затраты при сохранении высокой точности поиска, избегая необходимости полного перебора всех элементов в базе данных для каждого запроса. arXiv · Машинное обучение Оптимизация визуальных токенов в VLM через энтропийный анализ Исследователи представили метод Entropy-Aware Dense Visual Token Pruning, направленный на ускорение работы мультимодальных моделей (VLM). Технология решает проблему избыточности визуальных данных, отсекая нерелевантные фрагменты изображений. Новый подход позволяет сохранять критически важные детали при выполнении сложных запросов, устраняя влияние текстового шума на процесс кросс-модального сопоставления и повышая общую эффективность инференса моделей. arXiv · Обучение и дообучение Новый метод для эффективного онлайн-обучения визуально-языковых агентов Исследователи предложили новый подход к онлайн-обучению визуально-языковых агентов (VLA) с использованием методов reinforcement learning (RL). В статье, опубликованной на arXiv, они описывают метод Hierarchical Advantage Weighting (HAW), который решает проблему редких и неинформативных сигналов обратной связи в процессе обучения. Hacker News · Оценка и бенчмарки Метод Лос-Аламосской лаборатории для выявления галлюцинаций в мультимодальных моделях Исследователи из Лос-Аламосской национальной лаборатории представили новый подход к диагностике ошибок в работе мультимодальных моделей, объединяющих зрение и язык. Основная проблема таких систем заключается в склонности к «галлюцинациям» — генерации описаний объектов или событий, которых нет на исходном изображении. Разработанный метод позволяет более точно отслеживать соответствие между визуальными данными и текстовым выводом модели. arXiv · Исследования и наука Новый метод обучения LVLM через визуально обоснованную саморефлексию Исследователи представили метод обучения мультимодальных моделей (LVLM), который улучшает их способность к саморефлексии через подкрепление (RL). В отличие от стандартных моделей, которые часто игнорируют визуальные данные при исправлении ошибок, новый подход заставляет нейросеть опираться на исходное изображение при анализе цепочки рассуждений, что значительно повышает точность коррекции логических выводов. arXiv · Модели и релизы Исследование: VLA-модели плохо работают с неанглийскими языками Недавнее исследование, опубликованное на arXiv, раскрывает значительный пробел в способности Vision-Language-Action (VLA) моделей работать с языками, отличными от английского. Эти модели, которые демонстрируют многообещающие возможности в обучении универсальных политик роботов на основе мультимодальных данных, в основном обучаются и оцениваются на английских инструкциях. Это оставляет их способность понимать и выполнять команды на других языках практически неизученной. arXiv · Исследования и наука AIR: новый подход к адаптивному рассуждению в мультимодальных моделях Исследователи представили метод Adaptive Interleaved Reasoning (AIR), направленный на улучшение логических способностей мультимодальных больших языковых моделей (MLLM). В отличие от существующих решений, которые полагаются на жестко заданные эвристики для обработки визуальных данных, новый подход позволяет моделям динамически использовать код для построения цепочек рассуждений. Это дает возможность системе самостоятельно определять, когда и как применять программные инструменты для решения сложных задач, требующих глубокого анализа изображений.

← Все материалы