Новая работа исследователей ставит под сомнение тезис о полноте по Тьюрингу для стандартных архитектур Transformer. В статье анализируются теоретические ограничения моделей, использующих механизм внимания (attention) с фиксированной точностью вычислений. Авторы доказывают, что при стандартных условиях работы с конечным числом слоев и фиксированной размерностью векторов, такие системы не способны симулировать произвольную машину Тьюринга.
Ключевой аргумент строится на анализе динамики состояний модели. В отличие от рекуррентных нейронных сетей или систем с неограниченной памятью, стандартный Transformer ограничен фиксированным количеством операций на каждый входной токен. Это означает, что модель не может динамически расширять вычислительный ресурс для решения задач, требующих произвольно длинных цепочек рассуждений или итеративных вычислений, выходящих за рамки предопределенной глубины сети.
Результаты исследования подчеркивают разницу между способностью модели аппроксимировать сложные функции и её способностью к универсальным вычислениям. Хотя современные большие языковые модели демонстрируют впечатляющие результаты в решении логических задач, их архитектурная основа имеет фундаментальные барьеры. Это объясняет, почему для выполнения многошаговых алгоритмических процессов моделям часто требуются внешние инструменты, дополнительные циклы обработки или специализированные методы планирования, выходящие за пределы прямого прохода через слои внимания.