Исследователи представили метод Signed-Permutation Coordinate Transport, решающий проблему несовместимости представлений в моделях с RMSNorm. При переносе векторов управления, разреженных автокодировщиков и других нейронных структур между чекпоинтами возникают ошибки из-за различий в «калибровке» потока остатков. Новый подход позволяет математически корректно приводить эти объекты к единой системе координат, сохраняя целостность данных при слиянии моделей.
Проблема заключается в том, что архитектуры на базе LayerNorm и RMSNorm обладают разными свойствами инвариантности. В то время как LayerNorm допускает перестановки с глобальным изменением знака, RMSNorm имеет более сложную структуру калибровки. Без учета этих различий любые попытки переноса весов или интерпретируемых признаков между разными чекпоинтами приводят к потере точности и искажению смысла векторов.
Метод предлагает формальный аппарат для работы с «gauge» (калибровкой) остаточного потока. Это критически важно для современных рабочих процессов, где требуется объединение нескольких моделей (model merging), использование внешних векторов управления (steering vectors) или анализ нейронной активности через разреженные автокодировщики. Использование предложенного алгоритма позволяет избежать деградации производительности при манипуляциях с внутренними представлениями трансформеров.
Ключевые факты
- Метод Signed-Permutation Coordinate Transport стандартизирует перенос объектов между чекпоинтами моделей.
- Установлено, что LayerNorm обладает калибровкой перестановки $S_d$ с точностью до глобального знака.
- RMSNorm требует иного математического подхода из-за специфической архитектурной зависимости калибровки.
- Исследование направлено на решение проблем при работе со steering vectors, sparse autoencoders и top-k наборами нейронов.
- Разработка упрощает процессы слияния моделей и переноса знаний между различными версиями архитектур.