xFormers — это инструмент для создания быстрых и экономичных трансформеров на GPU. В статье разбирают ключевые техники: упакованные последовательности, группированное внимание (GQA), ALiBi, SwiGLU и причинное внимание.
Авторы сравнивают эффективность памяти и скорость работы с базовыми реализациями. Особое внимание уделяется маскировке причинных последовательностей и обработке переменной длины.
В итоге все методы объединяются в обучаемую модель в стиле GPT. Это полезно для разработчиков, работающих с большими языковыми моделями и ограниченными ресурсами.
xFormers поддерживает PyTorch и может интегрироваться в существующие пайплайны. Код и примеры доступны в открытом доступе.
