Исследователи представили концепцию Tapered Language Models — архитектурный подход, при котором ширина слоев нейросети постепенно уменьшается по мере углубления модели. Такой метод позволяет значительно снизить вычислительные затраты на инференс и объем используемой памяти, сохраняя при этом производительность, сопоставимую с традиционными трансформерами фиксированной ширины, что критически важно для эффективного развертывания моделей.

Традиционные архитектуры LLM обычно используют постоянную размерность скрытых слоев на всем протяжении сети. Однако анализ показывает, что не все слои вносят одинаковый вклад в итоговый результат. Авторы исследования предлагают динамически сужать модель, удаляя избыточные параметры в глубоких слоях, где информация уже достаточно абстрагирована. Это позволяет сократить количество операций с плавающей запятой (FLOPs) без существенной потери качества генерации.

Данный подход открывает новые возможности для оптимизации инференса на устройствах с ограниченными ресурсами. Вместо использования методов квантования или дистилляции, которые могут приводить к деградации точности, «сужающиеся» модели предлагают структурное решение, заложенное на этапе проектирования архитектуры. Это делает их перспективным инструментом для создания более компактных и быстрых языковых моделей, готовых к работе в реальных бизнес-приложениях.

Ключевые факты

  • Метод предполагает постепенное уменьшение размерности скрытых слоев (width tapering) в глубоких частях архитектуры трансформера.
  • Снижение количества параметров в глубоких слоях позволяет уменьшить общую вычислительную нагрузку на инференс на 20–30%.
  • Архитектура сохраняет высокую точность на стандартных бенчмарках, несмотря на значительное сокращение общего числа параметров.
  • Подход ориентирован на повышение эффективности развертывания моделей в условиях ограниченной пропускной способности памяти и вычислительных мощностей.