Исследователи представили метод C$^{2}$R (Cross-sample Consistency Regularization), направленный на решение проблем «расщепления» и «поглощения» признаков в разреженных автокодировщиках (SAE). Этот подход позволяет более эффективно декомпозировать активации больших языковых моделей, предотвращая фрагментацию понятий и обеспечивая более точное выделение атомарных признаков, что критически важно для интерпретируемости сложных нейронных архитектур.

Разреженные автокодировщики стали стандартом для анализа внутренних состояний LLM, однако при масштабировании словарей признаки часто теряют свою семантическую целостность. Расщепление признаков приводит к тому, что единое понятие размывается по нескольким латентным переменным, а поглощение заставляет модель игнорировать важные исключения, объединяя их с доминирующими концепциями. C$^{2}$R вводит механизм регуляризации, который заставляет модель поддерживать согласованность признаков между различными выборками данных.

Применение данного метода позволяет добиться более стабильных и интерпретируемых представлений без необходимости значительного увеличения вычислительных затрат. Это упрощает процесс отладки моделей и анализа их «черного ящика», позволяя исследователям точнее определять, какие именно концепции активируются в ответ на конкретные входные данные.

Ключевые факты

  • Метод C$^{2}$R (Cross-sample Consistency Regularization) борется с фундаментальными ошибками SAE: расщеплением (feature splitting) и поглощением (feature absorption).
  • Использование регуляризации на основе кросс-выборочной согласованности помогает сохранять атомарность признаков при масштабировании словарей.
  • Техника позволяет избежать фрагментации понятий, когда единый концепт ошибочно распределяется по нескольким не связанным латентным каналам.
  • Разработка направлена на повышение надежности интерпретации активаций в крупномасштабных языковых моделях.