xFormers — это инструмент для создания быстрых и экономичных трансформеров на GPU. В статье разбирают ключевые техники: упакованные последовательности, группированное внимание (GQA), ALiBi, SwiGLU и причинное внимание.

Авторы сравнивают эффективность памяти и скорость работы с базовыми реализациями. Особое внимание уделяется маскировке причинных последовательностей и обработке переменной длины.

В итоге все методы объединяются в обучаемую модель в стиле GPT. Это полезно для разработчиков, работающих с большими языковыми моделями и ограниченными ресурсами.

xFormers поддерживает PyTorch и может интегрироваться в существующие пайплайны. Код и примеры доступны в открытом доступе.