Together.ai · 14.04.2026 ·Машинное обучение

Parcae: модель с петлями вместо трансформеров

Parcae: модель с петлями вместо трансформеров

Исследователи представили Parcae — модель с петлями, которая превосходит трансформеры по эффективности. Учёные показали, что увеличение рекурсии, а не данных, может быть вычислительно эффективным способом улучшения моделей.

Parcae — это стабильная рекурсивная модель, которая достигает уровня производительности трансформеров в два раза большего размера. Например, модель с 770 миллионами параметров показывает результаты, сопоставимые с моделями на 1,3 миллиарда параметров.

В исследовании также представлены первые законы масштабирования для рекурсивных моделей. Это открывает новые возможности для создания более эффективных и мощных языковых моделей.

Разработчики утверждают, что их подход может стать альтернативой традиционным трансформерам, предлагая лучшее соотношение качества и вычислительных затрат.

Источник: Together.ai

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Исследование: неравномерное распределение параметров в трансформерах Учёные изучили эффективность неравномерного распределения параметров в трансформерах. Обычно архитектуры трансформеров используют одинаковую ширину во всех слоях, что приводит к равномерному распределению вычислительных ресурсов. Однако новые исследования показывают, что разные слои могут выполнять разные роли, и их вычислительные потребности могут отличаться. arXiv · Машинное обучение Исследование: устойчивые и адаптивные трансформеры с фиксированной точкой Учёные предложили новый подход к трансформерам с циклической архитектурой, который решает проблему распространения сигнала на больших глубинах. В статье на arXiv представлены Fixed-Point Reasoners — модели, способные адаптироваться к сложным задачам, требующим составного рассуждения. arXiv · Исследования и наука Гипотеза разделения состояния и предсказания в архитектуре трансформеров Исследователи предложили новую архитектуру трансформеров, основанную на гипотезе разделения состояния и предсказания. В стандартных моделях один поток вычислений одновременно отвечает за генерацию следующего токена и хранение контекста. Авторы доказали, что разграничение этих функций позволяет существенно повысить эффективность языкового моделирования и качество предсказаний в долгосрочной перспективе. Lobsters · Исследования и наука Сравнение архитектур Transformer и гибридных моделей на уровне токенов Исследователи представили детальный сравнительный анализ классических трансформеров и гибридных архитектур, фокусируясь на эффективности обработки данных на уровне токенов. Работа выявляет фундаментальные различия в механизмах внимания и рекуррентных процессах, определяя, в каких сценариях гибридные подходы превосходят стандартные трансформеры по скорости инференса и качеству генерации при сохранении сопоставимой вычислительной сложности. arXiv · Исследования и наука Линейные модели против трансформеров в прогнозировании временных рядов Исследователи поставили под сомнение доминирование сложных архитектур в задачах прогнозирования временных рядов. Анализ показал, что простая гребневая регрессия (Ridge regression) при правильной настройке предобработки данных способна конкурировать с современными трансформерами и фундаментальными моделями, обеспечивая сопоставимую точность при значительно меньших вычислительных затратах и сложности внедрения в производственные системы. arXiv · Исследования и наука Новое теоретическое исследование архитектуры Transformer через C-RASP Исследователи представили теоретическую модель C-RASP для анализа выразительности и сложности обучения трансформеров. Работа фокусируется на концепции «узких учителей» (narrow teachers), позволяющих понять, какие задачи могут эффективно решать LLM при ограниченных вычислительных ресурсах. Авторы доказывают, что выбор архитектурных весов напрямую влияет на способность моделей аппроксимировать сложные алгоритмические функции и минимизировать ошибку выборки. Hacker News · Исследования и наука Новый метод Looped Transformers для улучшения логических рассуждений моделей Исследователи представили архитектуру Looped Transformers, которая объединяет скрытые (латентные) и явные процессы рассуждения в рамках единой модели. Метод позволяет итеративно уточнять логические выводы, используя циклическую обработку данных. Это решение значительно повышает точность моделей в задачах, требующих многошагового планирования и глубокого анализа, преодолевая ограничения стандартных трансформеров при решении сложных логических цепочек. arXiv · Исследования и наука Новая алгебраическая теория вычислительных способностей трансформеров Исследователи представили формальную теорию, описывающую вычислительные возможности трансформеров с причинно-следственной маскировкой (causally masked) в условиях ограниченной точности вычислений. Авторы доказывают, что при конечном представлении чисел порядок операций и ошибки округления критически влияют на то, какую информацию механизм внимания способен сохранять и обрабатывать, что ограничивает или расширяет спектр решаемых моделью задач для произвольной длины входных данных. Hacker News · Машинное обучение Next-Latent Prediction Transformers: компактные мировые модели Исследователи представили новый подход к созданию мировых моделей — Next-Latent Prediction Transformers (NLP-T). В отличие от традиционных моделей, NLP-T используют компактные представления, что позволяет значительно снизить вычислительные затраты при сохранении высокой точности. arXiv · Машинное обучение Трансформеры для решения уравнений на сложных геометриях Исследователи из MIT и других ведущих университетов представили новый подход к использованию трансформеров для решения задач, связанных с дифференциальными уравнениями на сложных геометриях. Традиционные методы, основанные на нейронных операторах, ограничены фиксированным размером области, что затрудняет их применение в реальных сценариях, где размеры могут варьироваться.

← Все материалы