Hacker News · 21.06.2026 ·Исследования и наука

Исследование вычислительных возможностей архитектуры Transformer

Новая работа исследователей ставит под сомнение тезис о полноте по Тьюрингу для стандартных архитектур Transformer. В статье анализируются теоретические ограничения моделей, использующих механизм внимания (attention) с фиксированной точностью вычислений. Авторы доказывают, что при стандартных условиях работы с конечным числом слоев и фиксированной размерностью векторов, такие системы не способны симулировать произвольную машину Тьюринга.

Ключевой аргумент строится на анализе динамики состояний модели. В отличие от рекуррентных нейронных сетей или систем с неограниченной памятью, стандартный Transformer ограничен фиксированным количеством операций на каждый входной токен. Это означает, что модель не может динамически расширять вычислительный ресурс для решения задач, требующих произвольно длинных цепочек рассуждений или итеративных вычислений, выходящих за рамки предопределенной глубины сети.

Результаты исследования подчеркивают разницу между способностью модели аппроксимировать сложные функции и её способностью к универсальным вычислениям. Хотя современные большие языковые модели демонстрируют впечатляющие результаты в решении логических задач, их архитектурная основа имеет фундаментальные барьеры. Это объясняет, почему для выполнения многошаговых алгоритмических процессов моделям часто требуются внешние инструменты, дополнительные циклы обработки или специализированные методы планирования, выходящие за пределы прямого прохода через слои внимания.

Источник: Hacker News

Похожие материалы

arXiv · Машинное обучение Новый метод прунинга для оптимизации Transformer-моделей Исследователи представили метод Complementary Attention Head Pruning (CAHP), направленный на повышение эффективности архитектуры Transformer. Основная проблема современных LLM заключается в избыточном количестве параметров, что затрудняет их развертывание на устройствах с ограниченными вычислительными ресурсами. Существующие подходы к сжатию моделей часто опираются на градиентный анализ важности весов или стохастическое гейтирование, которые не всегда обеспечивают оптимальный баланс между скоростью работы и качеством генерации. Hacker News · Исследования и наука Tree Transformers: новый подход к архитектуре нейросетей Исследователи представили архитектуру Tree Transformers, которая меняет способ обработки иерархических данных в нейронных сетях. В отличие от стандартных трансформеров, работающих с линейными последовательностями токенов через механизмы внимания, новая модель опирается на древовидную структуру данных. Это позволяет эффективнее моделировать зависимости в задачах, где важна вложенность и иерархия, например, при анализе синтаксиса языков программирования или сложных математических выражений. arXiv · Машинное обучение Исследование: неравномерное распределение параметров в трансформерах Учёные изучили эффективность неравномерного распределения параметров в трансформерах. Обычно архитектуры трансформеров используют одинаковую ширину во всех слоях, что приводит к равномерному распределению вычислительных ресурсов. Однако новые исследования показывают, что разные слои могут выполнять разные роли, и их вычислительные потребности могут отличаться. arXiv · Машинное обучение Исследование: устойчивые и адаптивные трансформеры с фиксированной точкой Учёные предложили новый подход к трансформерам с циклической архитектурой, который решает проблему распространения сигнала на больших глубинах. В статье на arXiv представлены Fixed-Point Reasoners — модели, способные адаптироваться к сложным задачам, требующим составного рассуждения. Artificial intelligence – MIT Technology Review · Машинное обучение Стартап Subquadratic заявляет о прорыве в архитектуре языковых моделей Майамский стартап Subquadratic вышел из режима скрытности с заявлением о решении фундаментальной математической проблемы, ограничивавшей развитие больших языковых моделей на протяжении последних десяти лет. Речь идет о преодолении вычислительного барьера, связанного с квадратичной сложностью механизмов внимания в архитектуре Transformer. Традиционно потребность в ресурсах при обработке контекста растет пропорционально квадрату длины последовательности, что создает серьезные препятствия для работы с длинными документами и большими объемами данных. arXiv · Исследования и наука Интерпретация механизмов внимания через синтез программ Исследователи представили новый метод интерпретации нейронных сетей, который позволяет заменить непрозрачные вычисления моделей на понятные человеку символьные описания. В центре внимания оказались механизмы внимания (attention heads) в трансформерах, которые традиционно считаются «черным ящиком» из-за сложности их внутренних операций. Hacker News · Машинное обучение Next-Latent Prediction Transformers: компактные мировые модели Исследователи представили новый подход к созданию мировых моделей — Next-Latent Prediction Transformers (NLP-T). В отличие от традиционных моделей, NLP-T используют компактные представления, что позволяет значительно снизить вычислительные затраты при сохранении высокой точности. GitHub · Инференс и железо Реализация архитектуры Transformer на уровне RTL для FPGA Проект gateGPT демонстрирует возможность переноса архитектуры трансформеров непосредственно на аппаратный уровень с использованием языка описания аппаратуры (RTL). Разработчикам удалось реализовать полноценную модель на базе FPGA Virtex-5, что позволяет выполнять вычисления без участия центрального процессора или специализированных GPU-ускорителей. arXiv · Машинное обучение Трансформеры для решения уравнений на сложных геометриях Исследователи из MIT и других ведущих университетов представили новый подход к использованию трансформеров для решения задач, связанных с дифференциальными уравнениями на сложных геометриях. Традиционные методы, основанные на нейронных операторах, ограничены фиксированным размером области, что затрудняет их применение в реальных сценариях, где размеры могут варьироваться. Together.ai · Машинное обучение Parcae: модель с петлями вместо трансформеров Исследователи представили Parcae — модель с петлями, которая превосходит трансформеры по эффективности. Учёные показали, что увеличение рекурсии, а не данных, может быть вычислительно эффективным способом улучшения моделей.

← Все материалы