Исследователи представили математическую модель внимания, в которой токены рассматриваются как элементы матричных групп Ли. В отличие от традиционных архитектур, где токены представляют собой векторы признаков, здесь каждый токен выступает как чистое геометрическое преобразование без внешней нагрузки. Такой подход позволяет вычислять оценки внимания через алгебраическую норму относительного положения, а не через обучаемые ядра, как это реализовано в стандартных трансформерах.
Данная концепция переосмысливает фундаментальный механизм обработки данных в нейронных сетях. Вместо аппроксимации весов через матричное умножение, модель опирается на свойства симметрии и структуру групп Ли. Это позволяет формализовать взаимодействие между токенами как операцию внутри алгебраической структуры, что потенциально упрощает вычисления и делает процесс формирования внимания более интерпретируемым с точки зрения геометрии.
Авторы работы демонстрируют, что отказ от обучаемых ядер в пользу замкнутых алгебраических форм сохраняет эффективность обработки последовательностей. Метод открывает возможности для создания архитектур, которые лучше адаптируются к задачам, требующим понимания пространственных отношений и инвариантных преобразований. Исследование закладывает теоретический фундамент для разработки более компактных и математически обоснованных моделей глубокого обучения.