Исследователи представили метод улучшения интерпретируемости разреженных автокодировщиков (SAE), которые используются для анализа нейронных сетей. Авторы предложили новые регуляризаторы для архитектуры Top-k SAE, позволяющие эффективнее разделять полисемантические активации на более понятные и моносемантические признаки. Это решение помогает точнее интерпретировать внутренние представления моделей компьютерного зрения, сохраняя при этом жесткие ограничения по разреженности.

Sparse Autoencoders стали стандартом в области механистической интерпретируемости, позволяя переводить сложные скрытые состояния моделей в набор интерпретируемых векторов. Традиционные Top-k SAE принудительно оставляют только k наиболее активных латентных переменных, однако этот подход часто приводит к потере нюансов в представлениях. Новая методика регуляризации позволяет сгладить этот процесс, делая извлеченные признаки более стабильными и семантически значимыми для исследователей.

Применение данных регуляризаторов позволяет снизить уровень «шума» при декомпозиции активаций, что критически важно для понимания того, как именно нейросети обрабатывают визуальные данные. Метод направлен на решение проблемы «мертвых» признаков и повышение качества интерпретации моделей, которые демонстрируют сложные паттерны поведения в задачах классификации и генерации изображений.

Ключевые факты

  • Предложены новые регуляризаторы для архитектуры Top-k SAE, улучшающие качество извлечения признаков.
  • Метод направлен на повышение моносемантичности латентных представлений в моделях компьютерного зрения.
  • Исследование решает проблему жесткого ограничения k-активаций, которое часто снижает точность интерпретации.
  • Работа базируется на анализе полисемантических активаций, затрудняющих понимание логики работы глубоких нейронных сетей.