arXiv · 17.06.2026 ·Машинное обучение

TGO: новый подход к анализу геометрии представлений в Vision Transformers

Исследователи представили Transformer Geometry Observatory (TGO) — систематический фреймворк для изучения внутренней структуры и размерности представлений в моделях Vision Transformers (ViT). Несмотря на широкое распространение архитектур на базе трансформеров в задачах компьютерного зрения, принципы формирования их скрытых пространств и геометрические свойства признаков до сих пор оставались недостаточно изученными.

Разработанный инструментарий включает набор аналитических пайплайнов, позволяющих отслеживать, как именно данные трансформируются при прохождении через слои внимания и полносвязные блоки. Авторы фокусируются на спектральной геометрии, анализируя собственные значения матриц признаков и их динамику в процессе обучения. Такой подход помогает выявить закономерности, которые определяют способность модели к обобщению и устойчивость к искажениям входных данных.

Результаты применения TGO позволяют глубже понять, как архитектурные гиперпараметры влияют на топологию представлений. Полученные данные дают возможность более точно настраивать модели для специфических задач, опираясь на математически обоснованные метрики сложности и размерности, а не только на эмпирические результаты бенчмарков.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука Геометрические foundation-модели научились определять перекрытие изображений Исследователи обнаружили, что геометрические foundation-модели (VGGT) способны определять ко-видимость — наличие общих поверхностей на разных изображениях — без специального обучения. Эта способность является эмерджентным свойством внутренних представлений модели, что позволяет эффективнее решать задачи 3D-реконструкции и робототехнической локализации даже в условиях минимального визуального перекрытия между кадрами. Hacker News · Машинное обучение IGGT4D: новый подход к реконструкции 4D-геометрии в реальном времени Исследователи представили IGGT4D — архитектуру на базе трансформеров для потоковой реконструкции 4D-геометрии объектов. Модель эффективно обрабатывает динамические сцены, объединяя пространственную геометрию и временную динамику. Метод демонстрирует высокую точность в задачах инстансной сегментации и восстановления формы движущихся объектов, что открывает новые возможности для компьютерного зрения, автономных систем и технологий дополненной реальности. arXiv · Исследования и наука Геометрические трансформации в архитектурах UNet, ViT и DiT Исследователи представили единый аналитический фреймворк для изучения влияния геометрических возмущений на архитектуры нейронных сетей, включая UNet, ViT и DiT. Работа фокусируется на применении элементов диэдральной группы к скрытым состояниям моделей, что позволяет лучше понять устойчивость и эффективность генеративных диффузионных систем при различных пространственных преобразованиях данных. arXiv · Машинное обучение TopoFormer: новый подход к обучению на графах через топологические токены Исследователи представили TopoFormer — масштабируемый фреймворк для обучения на графовых структурах, который преобразует топологию графа в последовательности, понятные механизмам внимания. Ключевой компонент системы, модуль Topo-Scan, декомпозирует сложные графы в упорядоченные наборы токенов, что позволяет эффективно использовать архитектуры трансформеров для анализа многомасштабных структурных паттернов без потери вычислительной производительности. Hacker News · Исследования и наука Исследование внутренней архитектуры Transformer: анализ точности весов Работа «A Transformer Is All You Need PT 2L: Precision Brain Surgery» представляет глубокий анализ механизмов работы трансформеров через призму высокоточной настройки параметров. Авторы исследуют, как изменение конкретных весов внутри нейронной сети влияет на итоговую производительность модели, предлагая методы «хирургического» вмешательства в структуру для оптимизации вычислений и повышения точности без необходимости полного переобучения. arXiv · Машинное обучение Трансформеры для решения уравнений на сложных геометриях Исследователи из MIT и других ведущих университетов представили новый подход к использованию трансформеров для решения задач, связанных с дифференциальными уравнениями на сложных геометриях. Традиционные методы, основанные на нейронных операторах, ограничены фиксированным размером области, что затрудняет их применение в реальных сценариях, где размеры могут варьироваться. Hacker News · Исследования и наука Tree Transformers: новый подход к архитектуре нейросетей Исследователи представили архитектуру Tree Transformers, которая меняет способ обработки иерархических данных в нейронных сетях. В отличие от стандартных трансформеров, работающих с линейными последовательностями токенов через механизмы внимания, новая модель опирается на древовидную структуру данных. Это позволяет эффективнее моделировать зависимости в задачах, где важна вложенность и иерархия, например, при анализе синтаксиса языков программирования или сложных математических выражений. arXiv · Исследования и наука Математический анализ обобщающей способности трансформеров в задачах дистрибутивной регрессии Исследователи представили теоретический анализ того, как архитектура Transformer справляется с задачами дистрибутивной регрессии. Работа фокусируется на понимании механизмов обобщения модели, которые позволяют эффективно работать с данными, представленными в виде распределений. Авторы математически обосновывают границы ошибок и условия, при которых трансформеры демонстрируют высокую предсказательную точность, что критически важно для понимания их успеха в глубоком обучении. Hacker News · Исследования и наука Transformer Transformer: новый подход к совместному проектированию роботов Исследователи представили архитектуру Transformer Transformer (TT), которая объединяет проектирование физической формы робота и его системы управления движением. Модель позволяет одновременно оптимизировать морфологию робота и стратегию его передвижения, сокращая время на разработку и повышая эффективность адаптации под конкретные задачи в симулированной среде, что является важным шагом в автоматизации создания специализированных робототехнических систем. arXiv · Исследования и наука G3VLA: новый подход к пространственному восприятию в робототехнике Исследователи представили архитектуру G3VLA, которая внедряет геометрические индуктивные смещения в модели Vision-Language-Action (VLA). В отличие от стандартных моделей, привязанных к 2D-координатам изображений, G3VLA использует калиброванную геометрию камер робота. Это позволяет системе эффективно объединять данные с нескольких камер, обеспечивая точное понимание 3D-пространства, необходимое для выполнения сложных манипуляционных задач в реальных условиях.

← Все материалы