Исследователи проанализировали, как мультимодальные модели разрешают противоречия между визуальными данными и заложенными в них знаниями о мире. Используя метод активационного патчинга, авторы выявили причинно-следственные связи на уровне отдельных компонентов нейросети, показав, что модели склонны отдавать приоритет внутренним «воспоминаниям» над реальным визуальным вводом, что критически влияет на надежность систем компьютерного зрения.
В работе рассматривается процесс обработки информации в остаточных потоках, головах внимания и MLP-слоях. Выяснилось, что при возникновении конфликта между тем, что модель «видит» на изображении, и тем, что она «знает» из обучающей выборки, архитектурные компоненты склонны игнорировать внешние стимулы. Этот механизм «приоритета знаний» (prior-override) объясняет многие случаи галлюцинаций, когда модель описывает объект не таким, какой он есть на картинке, а таким, каким он должен быть согласно её статистическим представлениям.
Понимание этих внутренних процессов позволяет точнее настраивать модели для повышения их объективности. Авторы предлагают методы вмешательства в активации, которые позволяют сместить баланс в сторону визуальных доказательств, снижая зависимость от заученных паттернов. Это исследование является важным шагом к созданию более надежных мультимодальных систем, способных корректно интерпретировать неоднозначные или противоречивые визуальные данные в реальных условиях эксплуатации.
Ключевые факты
- Исследование сфокусировано на механизмах разрешения конфликтов между визуальным вводом и внутренними знаниями (Perception-Knowledge Conflict).
- Применен метод активационного патчинга на трех уровнях: остаточные потоки, головы внимания и MLP-подслои.
- Установлено, что модели систематически отдают предпочтение заученным знаниям, даже если они противоречат визуальным фактам.
- Результаты объясняют природу галлюцинаций в мультимодальных моделях и предлагают пути их минимизации через коррекцию активаций.