Together.ai · 04.03.2026 ·Машинное обучение

Together AI представила FlashAttention-4 и ThunderAgent

На конференции AI Native Conf компания Together AI анонсировала несколько ключевых разработок в области инференса и оптимизации моделей. Среди них — FlashAttention-4, ускоряющая вычисления внимания, и ThunderAgent, платформа для развертывания агентов.

FlashAttention-4 продолжает линейку технологий, направленных на ускорение работы трансформеров. ThunderAgent предлагает инструменты для быстрого развертывания и масштабирования агентов на основе больших языковых моделей.

Компания также представила together.compile — фреймворк для компиляции моделей, который оптимизирует их работу на различных аппаратных платформах. Все эти технологии интегрированы в AI Native Cloud, облачную платформу Together AI.

Разработки компании направлены на сокращение времени и затрат на развертывание сложных ИИ-систем, что может существенно повлиять на рынок инференса и разработки агентов.

Источник: Together.ai

Обсудить с ИИ

Похожие материалы

Together.ai · Инференс и железо Как Together AI ускоряет работу моделей на GPU Команда Together AI, известная разработками FlashAttention и ThunderKittens, занимается оптимизацией работы моделей на графических процессорах. Их исследования направлены на сокращение разрыва между возможностями GPU и реальными задачами в производстве ИИ. Together.ai · Инференс и железо Together AI представила новые решения для инференса и агентов на NVIDIA GTC 2026 Together AI выступила на конференции NVIDIA GTC 2026 с рядом новых разработок. В фокусе — инференс, агентные технологии, голосовой ИИ и открытые модели. Компания также провела технические сессии, где её исследователи и инженеры поделились деталями новых решений. Hacker News · Инференс и железо FlashAttention-4 ускоряет инференс моделей Команда Modal выпустила обновлённую версию FlashAttention-4, которая значительно ускоряет инференс трансформеров. Это особенно важно для агентов, работающих с большими языковыми моделями, где скорость обработки запросов напрямую влияет на пользовательский опыт. Together.ai · Инфраструктура для агентов ThunderAgent: ускорение агентного инференса в два раза Together AI представила ThunderAgent — планировщик для агентного инференса, оптимизирующий выполнение сложных рабочих процессов. Система рассматривает агентные цепочки как планируемые программы, что позволяет устранить избыточное использование KV-кэша. В результате пропускная способность на одном узле увеличивается более чем в два раза, обеспечивая при этом практически линейное масштабирование при работе на нескольких узлах одновременно. Together.ai · Машинное обучение FlashAttention-4: оптимизация для асимметричного масштабирования Команда Together.ai представила FlashAttention-4 — алгоритм, оптимизированный для современных GPU. Новая версия использует пиплайнинг для максимального перекрытия операций, что позволяет эффективно использовать пропускную способность графических процессоров. Together.ai · Оркестрация агентов Together AI ускорила инференс моделей в 2.6 раза Together AI представила новую систему оркестрации для запуска кастомных моделей — Dedicated Container Inference. Она обеспечивает ускорение инференса в 1.4–2.6 раза по сравнению с традиционными подходами. Together.ai · Инфраструктура для агентов Together AI расширяет сервис файн-тунинга Together AI добавила в свой сервис файн-тунинга поддержку вызовов инструментов, рассуждений и визуально-языковых моделей. Это позволяет пользователям настраивать модели для работы с внешними сервисами, сложными логическими задачами и обработкой изображений. Together.ai · Инференс и железо Сравнение производительности кодирующих агентов Компания Together.ai провела бенчмарк производительности кодирующих агентов в реальных условиях. По результатам тестов, их решение показало 31% больше транзакций в секунду (TPS) по сравнению с TensorRT-LLM. Также отмечено в два раза лучшее время первого ответа (TTFT) при насыщении системы и на 76% более низкие затраты по сравнению с моделью Claude Opus 4.6. Together.ai · Инфраструктура для агентов Together AI представила инфраструктуру для голосовых агентов Together AI анонсировала платформу для создания голосовых агентов с задержкой менее 500 мс. Решение включает интеграцию распознавания речи (STT), языковых моделей (LLM) и синтеза речи (TTS) в одном месте. Together.ai · Исследования и наука Together AI представила восемь исследовательских работ на конференции ICML 2026 Компания Together AI опубликовала результаты восьми научных исследований, представленных на международной конференции по машинному обучению ICML 2026. Работы охватывают полный стек технологий, от оптимизации архитектур моделей до методов эффективного обучения, которые в дальнейшем интегрируются в платформу компании для масштабируемого инференса и разработки нейросетевых решений.

← Все материалы