Исследователи представили концепцию Tapered Language Models, предлагающую пересмотреть стандартную архитектуру нейросетей. Традиционные модели, включая трансформеры, используют стек идентичных слоев с равномерным распределением параметров по всей глубине сети. Авторы работы доказывают, что такой подход избыточен, так как вклад слоев в итоговый результат неоднороден: ранние и поздние слои выполняют разные вычислительные задачи.
В рамках предложенного метода предлагается «сужать» модель, уменьшая количество параметров в слоях, которые вносят меньший вклад в обработку данных. Это позволяет значительно сократить вычислительные затраты и объем памяти без существенной потери качества генерации. Эксперименты показывают, что перераспределение ресурсов в пользу наиболее значимых слоев повышает эффективность обучения и инференса.
Данная архитектурная оптимизация открывает путь к созданию более компактных и быстрых моделей, сохраняющих производительность полноразмерных аналогов. Переход от однородных структур к адаптивным слоям может стать новым стандартом при проектировании нейросетей, позволяя эффективнее использовать аппаратные ресурсы при работе с большими языковыми моделями.