Команда Together.ai представила FlashAttention-4 — алгоритм, оптимизированный для современных GPU. Новая версия использует пиплайнинг для максимального перекрытия операций, что позволяет эффективно использовать пропускную способность графических процессоров.
FlashAttention-4 вводит два режима матричной мультипликации (2-CTA MMA), которые снижают трафик в общей памяти. Это особенно важно, так как пропускная способность GPU растёт быстрее, чем доступная память.
Алгоритм также применяет гибридный подход к вычислению экспонент softmax, сочетая аппаратные и программные методы. Это позволяет ускорить вычисления и улучшить производительность моделей на асимметричных аппаратных платформах.
FlashAttention-4 предназначен для оптимизации работы с трансформерами и других моделей, требующих значительных вычислительных ресурсов. Новый алгоритм может быть полезен для разработчиков, работающих с большими языковыми моделями и другими сложными системами.
