Together.ai · 11.02.2026 ·Оркестрация агентов

Together AI ускорила инференс моделей в 2.6 раза

Together AI ускорила инференс моделей в 2.6 раза

Together AI представила новую систему оркестрации для запуска кастомных моделей — Dedicated Container Inference. Она обеспечивает ускорение инференса в 1.4–2.6 раза по сравнению с традиционными подходами.

Новый инструмент ориентирован на разработчиков, которым требуется высокая производительность и стабильность при работе с собственными моделями. Вместе с ускорением Together AI обещает улучшенное управление ресурсами и масштабируемость.

Dedicated Container Inference поддерживает как облачные, так и локальные развёртывания. Компания подчёркивает, что решение готово к использованию в производственных средах, что делает его подходящим для коммерческих проектов.

Сейчас сервис доступен в бета-версии, а полноценный релиз запланирован на ближайшие месяцы. Together AI также обещает дальнейшее развитие инструмента с добавлением новых функций и оптимизаций.

Источник: Together.ai

Обсудить с ИИ

Похожие материалы

Together.ai · Инференс и железо Together AI представила новые решения для инференса и агентов на NVIDIA GTC 2026 Together AI выступила на конференции NVIDIA GTC 2026 с рядом новых разработок. В фокусе — инференс, агентные технологии, голосовой ИИ и открытые модели. Компания также провела технические сессии, где её исследователи и инженеры поделились деталями новых решений. Together.ai · Инференс и железо Как Together AI ускоряет работу моделей на GPU Команда Together AI, известная разработками FlashAttention и ThunderKittens, занимается оптимизацией работы моделей на графических процессорах. Их исследования направлены на сокращение разрыва между возможностями GPU и реальными задачами в производстве ИИ. Together.ai · Инфраструктура для агентов Together AI расширяет сервис файн-тунинга Together AI добавила в свой сервис файн-тунинга поддержку вызовов инструментов, рассуждений и визуально-языковых моделей. Это позволяет пользователям настраивать модели для работы с внешними сервисами, сложными логическими задачами и обработкой изображений. Together.ai · Машинное обучение Together AI представила FlashAttention-4 и ThunderAgent На конференции AI Native Conf компания Together AI анонсировала несколько ключевых разработок в области инференса и оптимизации моделей. Среди них — FlashAttention-4, ускоряющая вычисления внимания, и ThunderAgent, платформа для развертывания агентов. Together.ai · Инференс и железо Развёртывание моделей Hugging Face за один сеанс Together.ai представила решение для быстрого развёртывания моделей из Hugging Face. Сервис Goose в сочетании с Dedicated Container Inference позволяет запускать модели в производственной среде с GPU без сложной настройки. Together.ai · Инфраструктура для агентов Организация выделенного инференса моделей в инфраструктуре Together AI Together AI представила архитектуру управления выделенными мощностями для инференса моделей, основанную на трехуровневой модели ресурсов: эндпоинтах, деплойментах и конфигурациях. Система использует механизм маршрутизации с учетом доступной емкости, что позволяет динамически распределять нагрузку и обеспечивать стабильную работу высокопроизводительных LLM в продакшн-средах, минимизируя задержки и оптимизируя использование вычислительных ресурсов. Together.ai · Инфраструктура для агентов Together AI запускает Provisioned Throughput для предсказуемого инференса открытых моделей Платформа Together AI представила сервис Provisioned Throughput, обеспечивающий гарантированные мощности для запуска передовых открытых моделей, включая MiniMax M3 и GLM-5.2. Решение предлагает предсказуемую тарификацию на основе токенов, SLA с аптаймом 99% и снижение затрат до 90% по сравнению с проприетарными API, устраняя необходимость в управлении GPU-инфраструктурой и сложными расчетами ресурсов. Together.ai · Инфраструктура для агентов Платформа Together AI для промышленного инференса открытых моделей Together AI представила специализированную платформу для запуска open-weight моделей в продакшене. Решение ориентировано на обеспечение предсказуемой производительности, контроль затрат и соблюдение целевых показателей уровня обслуживания (SLO). Инструментарий позволяет развертывать модели за считанные минуты, обеспечивая масштабируемость и безопасность при переходе от прототипов к полноценным рабочим нагрузкам в корпоративной среде. Together.ai · Инференс и железо Как масштабировать инференс ИИ-моделей эффективно Компания Together.ai опубликовала исследование, посвящённое эффективному масштабированию инференса ИИ-моделей. По мере перехода ИИ из исследовательской фазы в промышленное использование ключевой задачей становится не только создание моделей, но и их эффективная, надёжная и масштабируемая эксплуатация. Together.ai · Инференс и железо Как Together оптимизировал MiniMax-M3 для эффективного инференса Компания Together.ai представила подход к оптимизации работы модели MiniMax-M3, позволяющий эффективно обрабатывать контекст из 1 миллиона токенов и поддерживать мультимодальность. В основе решения лежит использование KV-block-major sparse attention, что позволяет значительно сократить вычислительные затраты при работе с большими контекстами.

← Все материалы