Исследователи представили метод ELVA (Exploring Ranking-Driven Universal Multimodal Retrieval), направленный на повышение точности мультимодального поиска. Современные мультимодальные языковые модели часто сталкиваются с проблемой «зернистой слепоты» (grain blindness), при которой система игнорирует детализированную информацию в данных, фокусируясь лишь на общих признаках объекта. Это ограничение снижает эффективность поиска в задачах, требующих высокой точности сопоставления визуальных и текстовых элементов.
Авторы работы предложили архитектуру, основанную на ранжировании, которая позволяет лучше интегрировать мелкозернистые признаки в процесс обучения. В отличие от стандартных подходов, использующих контрастивное обучение, ELVA переключает фокус на ранжирование релевантных объектов. Это позволяет модели эффективнее различать тонкие различия между похожими изображениями и текстовыми запросами, что критически важно для сложных поисковых систем.
Эксперименты показали, что предложенный метод превосходит существующие аналоги в задачах универсального мультимодального поиска. Использование ранжирования как основного драйвера обучения помогает модели лучше улавливать контекстные связи, которые ранее оставались незамеченными. Разработка открывает новые возможности для создания более точных инструментов поиска по визуальному контенту, где требуется глубокое понимание структуры и деталей объектов.