Исследователи из MIT и Google Research выяснили, что визуально-языковые модели (VLM) используют специфический механизм для описания изображений. Они обнаружили небольшой набор attention heads в языковой части модели, которые называют gaze heads. Эти heads отслеживают конкретные области изображения, которые модель описывает в данный момент. Это открытие важно для понимания того, как модели обрабатывают визуальную информацию и как можно улучшить их точность и интерпретируемость.

Исследование показало, что gaze heads появляются в результате обучения и не зависят от архитектуры модели. Они обнаруживаются с помощью простого коэффициента корреляции, который вычисляется на основе нескольких проходов прямого распространения. Это означает, что механизм может быть универсальным и применимым к различным визуально-языковым моделям.

Для разработчиков ИИ-агентов это открытие может быть полезным, так как оно позволяет лучше понять, как модели обрабатывают визуальную информацию. Это может помочь в создании более точных и интерпретируемых агентов, которые могут эффективно взаимодействовать с визуальными данными. Кроме того, понимание gaze heads может способствовать разработке новых методов улучшения производительности визуально-языковых моделей.

Исследование также подчеркивает важность интерпретируемости в разработке ИИ. Понимание того, как модели обрабатывают информацию, может помочь в создании более надежных и безопасных систем. Это особенно важно для ИИ-агентов, которые могут взаимодействовать с пользователями в реальном времени и должны быть способны объяснить свои действия.