Исследователи представили метод повышения устойчивости CLIP-моделей к типографическим атакам, при которых случайный текст на изображении искажает интерпретацию визуальных данных. Новый подход позволяет локализовать концепты без необходимости переобучения модели, эффективно отделяя семантическое влияние текста от визуальных признаков. Это решение критически важно для корректной работы современных мультимодальных систем, использующих CLIP в качестве базового визуального энкодера.

Проблема заключается в том, что модели, обученные через контрастивное сопоставление текста и изображений, склонны придавать избыточный вес текстовым элементам внутри кадра. Даже незначительные надписи могут приводить к ошибочной классификации объектов, так как модель начинает опираться на лексическое значение слов, а не на реальные визуальные характеристики. Предложенный метод концептуальной локализации позволяет модели «игнорировать» отвлекающие текстовые вставки, сохраняя точность распознавания.

Техника базируется на анализе активаций, возникающих при обработке изображений, что позволяет выявлять и подавлять влияние нерелевантных текстовых фрагментов в режиме реального времени. Такой подход значительно снижает риск манипуляций, когда злоумышленники используют типографические вставки для обмана систем компьютерного зрения, сохраняя при этом исходную архитектуру модели без затрат на дорогостоящее дообучение.

Ключевые факты

  • CLIP-модели являются фундаментальными визуальными энкодерами для большинства современных мультимодальных языковых моделей (LVLM).
  • Типографические атаки используют текстовые вставки в изображениях для смещения внимания модели с визуальных признаков на лексические.
  • Новый метод обеспечивает устойчивость к таким атакам без необходимости проведения дополнительного обучения (training-free).
  • Технология позволяет эффективно локализовать и изолировать концепты, минимизируя влияние «шумового» текста на итоговое представление данных.