Together.ai · 31.03.2026 ·Инференс и железо

Как Together AI ускоряет работу моделей на GPU

Команда Together AI, известная разработками FlashAttention и ThunderKittens, занимается оптимизацией работы моделей на графических процессорах. Их исследования направлены на сокращение разрыва между возможностями GPU и реальными задачами в производстве ИИ.

FlashAttention — это технология, ускоряющая вычисления внимания в трансформерах, что критически важно для работы больших языковых моделей. ThunderKittens — это фреймворк для эффективного распределения вычислений между GPU, что позволяет значительно ускорить инференс.

Специалисты Together AI работают над тем, чтобы сделать использование ИИ-моделей более эффективным и доступным. Их исследования помогают снизить затраты на вычисления и ускорить обработку данных, что особенно важно для крупных языковых моделей.

Команда продолжает разрабатывать новые методы оптимизации, чтобы сделать ИИ-технологии более производительными и экономичными. Их работы могут существенно повлиять на развитие инфраструктуры для ИИ-агентов и сервисов.

Источник: Together.ai

Обсудить с ИИ

Похожие материалы

Together.ai · Машинное обучение Together AI представила FlashAttention-4 и ThunderAgent На конференции AI Native Conf компания Together AI анонсировала несколько ключевых разработок в области инференса и оптимизации моделей. Среди них — FlashAttention-4, ускоряющая вычисления внимания, и ThunderAgent, платформа для развертывания агентов. Together.ai · Инференс и железо Together AI представила новые решения для инференса и агентов на NVIDIA GTC 2026 Together AI выступила на конференции NVIDIA GTC 2026 с рядом новых разработок. В фокусе — инференс, агентные технологии, голосовой ИИ и открытые модели. Компания также провела технические сессии, где её исследователи и инженеры поделились деталями новых решений. Together.ai · Оркестрация агентов Together AI ускорила инференс моделей в 2.6 раза Together AI представила новую систему оркестрации для запуска кастомных моделей — Dedicated Container Inference. Она обеспечивает ускорение инференса в 1.4–2.6 раза по сравнению с традиционными подходами. Together.ai · Инференс и железо Как Together оптимизировал MiniMax-M3 для эффективного инференса Компания Together.ai представила подход к оптимизации работы модели MiniMax-M3, позволяющий эффективно обрабатывать контекст из 1 миллиона токенов и поддерживать мультимодальность. В основе решения лежит использование KV-block-major sparse attention, что позволяет значительно сократить вычислительные затраты при работе с большими контекстами. Together.ai · Инференс и железо Как масштабировать инференс ИИ-моделей эффективно Компания Together.ai опубликовала исследование, посвящённое эффективному масштабированию инференса ИИ-моделей. По мере перехода ИИ из исследовательской фазы в промышленное использование ключевой задачей становится не только создание моделей, но и их эффективная, надёжная и масштабируемая эксплуатация. Together.ai · Машинное обучение FlashAttention-4: оптимизация для асимметричного масштабирования Команда Together.ai представила FlashAttention-4 — алгоритм, оптимизированный для современных GPU. Новая версия использует пиплайнинг для максимального перекрытия операций, что позволяет эффективно использовать пропускную способность графических процессоров. Together.ai · Инфраструктура для агентов Together AI расширяет сервис файн-тунинга Together AI добавила в свой сервис файн-тунинга поддержку вызовов инструментов, рассуждений и визуально-языковых моделей. Это позволяет пользователям настраивать модели для работы с внешними сервисами, сложными логическими задачами и обработкой изображений. Together.ai · Инфраструктура для агентов Как проектировать многотенантные GPU-кластеры для ИИ-команд AI-компании сталкиваются с необходимостью эффективного распределения вычислительных ресурсов между командами. В Together AI поделились опытом проектирования многотенантных GPU-кластеров, которые позволяют объединять мощности без ущерба для изоляции рабочих процессов. Together.ai · Инференс и железо Развёртывание моделей Hugging Face за один сеанс Together.ai представила решение для быстрого развёртывания моделей из Hugging Face. Сервис Goose в сочетании с Dedicated Container Inference позволяет запускать модели в производственной среде с GPU без сложной настройки. The latest research from Google · Машинное обучение Sequential Attention: как ускорить модели без потери точности Исследователи Google предложили новый подход к оптимизации трансформеров — Sequential Attention. Он позволяет значительно сократить вычислительные затраты на инференс, не жертвуя точностью. В основе метода лежит идея последовательного внимания: вместо параллельной обработки всех токенов модель фокусируется на одном токене за раз, используя информацию из предыдущих шагов. Это снижает сложность вычислений с O(n²) до O(n log n), что делает модели более эффективными для локального развертывания и работы в реальном времени.

← Все материалы