Исследователи представили Transformer Geometry Observatory (TGO) — систематический фреймворк для изучения внутренней структуры и размерности представлений в моделях Vision Transformers (ViT). Несмотря на широкое распространение архитектур на базе трансформеров в задачах компьютерного зрения, принципы формирования их скрытых пространств и геометрические свойства признаков до сих пор оставались недостаточно изученными.

Разработанный инструментарий включает набор аналитических пайплайнов, позволяющих отслеживать, как именно данные трансформируются при прохождении через слои внимания и полносвязные блоки. Авторы фокусируются на спектральной геометрии, анализируя собственные значения матриц признаков и их динамику в процессе обучения. Такой подход помогает выявить закономерности, которые определяют способность модели к обобщению и устойчивость к искажениям входных данных.

Результаты применения TGO позволяют глубже понять, как архитектурные гиперпараметры влияют на топологию представлений. Полученные данные дают возможность более точно настраивать модели для специфических задач, опираясь на математически обоснованные метрики сложности и размерности, а не только на эмпирические результаты бенчмарков.