Исследователи предложили новый подход Plug-and-Adapt для мультимодального разрешения кореферентности (MCR), который не требует предварительного обучения на аннотированных данных. В статье на arXiv показано, что визуальная информация помогает устранять неоднозначности в тексте, что значительно повышает точность системы.

Традиционные методы MCR нуждаются в обучении на данных конкретного набора, что ограничивает их применимость и вызывает вопросы о обобщаемости. Новый метод использует предобученную модель выравнивания, что позволяет применять его без дополнительного обучения.

Авторы сравнили Plug-and-Adapt с существующими подходами и продемонстрировали его преимущества в задачах, где требуется связь между текстом и визуальными данными. Исследование может стать основой для новых решений в обработке мультимодальных данных.

Работа опубликована на arXiv и доступна для дальнейшего изучения.