Together.ai · 04.03.2026 ·Машинное обучение

FlashAttention-4: оптимизация для асимметричного масштабирования

FlashAttention-4: оптимизация для асимметричного масштабирования

Команда Together.ai представила FlashAttention-4 — алгоритм, оптимизированный для современных GPU. Новая версия использует пиплайнинг для максимального перекрытия операций, что позволяет эффективно использовать пропускную способность графических процессоров.

FlashAttention-4 вводит два режима матричной мультипликации (2-CTA MMA), которые снижают трафик в общей памяти. Это особенно важно, так как пропускная способность GPU растёт быстрее, чем доступная память.

Алгоритм также применяет гибридный подход к вычислению экспонент softmax, сочетая аппаратные и программные методы. Это позволяет ускорить вычисления и улучшить производительность моделей на асимметричных аппаратных платформах.

FlashAttention-4 предназначен для оптимизации работы с трансформерами и других моделей, требующих значительных вычислительных ресурсов. Новый алгоритм может быть полезен для разработчиков, работающих с большими языковыми моделями и другими сложными системами.

Источник: Together.ai

Обсудить с ИИ

Похожие материалы

Hacker News · Инференс и железо FlashAttention-4 ускоряет инференс моделей Команда Modal выпустила обновлённую версию FlashAttention-4, которая значительно ускоряет инференс трансформеров. Это особенно важно для агентов, работающих с большими языковыми моделями, где скорость обработки запросов напрямую влияет на пользовательский опыт. Hacker News · Машинное обучение Алгебраические основы FlashAttention: как работает ускорение внимания FlashAttention произвел революцию в обучении трансформеров, позволив эффективно обрабатывать длинные контексты за счет оптимизации работы с памятью GPU. Новый разбор от RiftStack детально объясняет математическую базу алгоритма, включая технику тайлинга и перевычисления (recomputation), которые позволяют избежать записи огромных матриц внимания в медленную память HBM, значительно ускоряя вычисления. Together.ai · Инференс и железо Как Together AI ускоряет работу моделей на GPU Команда Together AI, известная разработками FlashAttention и ThunderKittens, занимается оптимизацией работы моделей на графических процессорах. Их исследования направлены на сокращение разрыва между возможностями GPU и реальными задачами в производстве ИИ. Hacker News · Инференс и железо Оптимизация FlashAttention-3 и 4 для графических процессоров RTX Исследование RiftStack детально анализирует реализацию алгоритмов FlashAttention-3 и 4 на потребительских GPU серии RTX. Авторы разбирают архитектурные ограничения оборудования и методы эффективного использования тензорных ядер для ускорения вычислений внимания в трансформерах. Работа демонстрирует, как низкоуровневая оптимизация памяти и параллелизация вычислений позволяют существенно повысить пропускную способность моделей при работе на локальном железе. Together.ai · Машинное обучение Together AI представила FlashAttention-4 и ThunderAgent На конференции AI Native Conf компания Together AI анонсировала несколько ключевых разработок в области инференса и оптимизации моделей. Среди них — FlashAttention-4, ускоряющая вычисления внимания, и ThunderAgent, платформа для развертывания агентов. MarkTechPost · Инференс и железо Flash-KMeans: ускорение K-Means на GPU в 200 раз Flash-KMeans — это открытая реализация алгоритма K-Means, оптимизированная для работы на GPU с использованием Triton. В отличие от существующих решений, она не меняет математическую основу алгоритма, но значительно ускоряет его выполнение за счёт оптимизации ввода-вывода и устранения проблем с конкуренцией за ресурсы. NVIDIA Technical Blog · Инференс и железо Оптимизация механизмов внимания для ускорения инференса с длинным контекстом NVIDIA представила новый подход к проектированию механизмов внимания (attention) в нейросетях, направленный на устранение узких мест при работе с длинными контекстами. Метод позволяет значительно сократить время инференса, оптимизируя взаимодействие между вычислительными ядрами GPU и памятью, что критически важно для агентных систем и приложений, требующих обработки больших объемов данных в реальном времени. The latest research from Google · Машинное обучение Sequential Attention: как ускорить модели без потери точности Исследователи Google предложили новый подход к оптимизации трансформеров — Sequential Attention. Он позволяет значительно сократить вычислительные затраты на инференс, не жертвуя точностью. В основе метода лежит идея последовательного внимания: вместо параллельной обработки всех токенов модель фокусируется на одном токене за раз, используя информацию из предыдущих шагов. Это снижает сложность вычислений с O(n²) до O(n log n), что делает модели более эффективными для локального развертывания и работы в реальном времени. Hacker News · Инференс и железо Релиз Apex-1-flash: 4B LLM, оптимизированная для обучения на RTX 5070 Команда OrbitAI представила Apex-1-flash — компактную языковую модель с 4 миллиардами параметров. Ключевой особенностью релиза стала оптимизация процесса дообучения (fine-tuning) под потребительское железо нового поколения, в частности видеокарту RTX 5070. Модель демонстрирует высокую эффективность в задачах инференса, сохраняя при этом баланс между производительностью и требованиями к видеопамяти для локального запуска. Hacker News · Инференс и железо Оптимизация Attention для ускорителей AMD MI300X на языке HIP Разработчики представили высокопроизводительное ядро (kernel) для вычисления механизма внимания (Attention), оптимизированное специально под архитектуру графических ускорителей AMD Instinct MI300X. В отличие от большинства существующих решений, требующих написания низкоуровневого кода на ассемблере, данная реализация выполнена на языке HIP (Heterogeneous-compute Interface for Portability). Это значительно упрощает поддержку, отладку и переносимость кода между различными поколениями оборудования AMD, сохраняя при этом высокую скорость работы.

← Все материалы