Исследователи представили SemRF (Semantic Reference Frames) — формализм для анализа вычислений внутри языковых моделей. Метод решает проблему «дрейфа измерений», возникающую при сравнении промежуточных состояний модели на разных слоях. Использование семантических якорей позволяет исследователям точно отслеживать эволюцию представлений данных, отделяя реальные вычислительные процессы от артефактов интерпретации, вызванных несоответствием координат чтения.

Анализ остаточного потока (residual stream) является ключевым инструментом в механистической интерпретируемости, однако он часто сталкивается с проблемой несопоставимости данных между слоями. Традиционные методы декодирования могут давать искаженные результаты, если векторы встраивания (embeddings) и выходные проекции (unembedding) используют разные системы координат. SemRF вводит единую систему отсчета, которая фиксирует семантические концепты, позволяя корректно сопоставлять внутренние состояния модели на любой глубине.

Этот подход позволяет более глубоко изучать, как именно трансформируется информация в процессе прохождения через слои трансформера. Вместо того чтобы полагаться на сырые значения векторов, которые могут смещаться из-за особенностей обучения, SemRF нормализует эти данные относительно семантических ориентиров. Это дает возможность точнее локализовать конкретные вычислительные этапы, отвечающие за логические операции или генерацию специфических токенов.

Ключевые факты

  • SemRF решает проблему дрейфа измерений при анализе промежуточных слоев языковых моделей.
  • Метод использует систему семантических якорей для выравнивания координат чтения между слоями.
  • Формализм позволяет отделить реальную динамику вычислений от артефактов, возникающих при декодировании.
  • Разработка направлена на повышение точности методов механистической интерпретируемости LLM.