Исследователи представили Parcae — модель с петлями, которая превосходит трансформеры по эффективности. Учёные показали, что увеличение рекурсии, а не данных, может быть вычислительно эффективным способом улучшения моделей.
Parcae — это стабильная рекурсивная модель, которая достигает уровня производительности трансформеров в два раза большего размера. Например, модель с 770 миллионами параметров показывает результаты, сопоставимые с моделями на 1,3 миллиарда параметров.
В исследовании также представлены первые законы масштабирования для рекурсивных моделей. Это открывает новые возможности для создания более эффективных и мощных языковых моделей.
Разработчики утверждают, что их подход может стать альтернативой традиционным трансформерам, предлагая лучшее соотношение качества и вычислительных затрат.
