Together.ai · 01.06.2026 ·Инференс и железо

Как Together оптимизировал MiniMax-M3 для эффективного инференса

Компания Together.ai представила подход к оптимизации работы модели MiniMax-M3, позволяющий эффективно обрабатывать контекст из 1 миллиона токенов и поддерживать мультимодальность. В основе решения лежит использование KV-block-major sparse attention, что позволяет значительно сократить вычислительные затраты при работе с большими контекстами.

Для ускорения декодирования применяется paged MSA decode, а также оптимизированный алгоритм индексирования. Эти технологии позволяют минимизировать задержки и повысить производительность модели.

Кроме того, Together.ai разработал шлюз на основе Rust, который обеспечивает поддержку мультимодальных данных. Это позволяет модели обрабатывать не только текст, но и изображения, что расширяет её возможности для различных задач.

Подход, предложенный Together.ai, демонстрирует, как можно эффективно использовать мощные модели, такие как MiniMax-M3, для решения сложных задач с минимальными затратами ресурсов.

Источник: Together.ai

Обсудить с ИИ

Похожие материалы

Together.ai · Инференс и железо Как Together AI ускоряет работу моделей на GPU Команда Together AI, известная разработками FlashAttention и ThunderKittens, занимается оптимизацией работы моделей на графических процессорах. Их исследования направлены на сокращение разрыва между возможностями GPU и реальными задачами в производстве ИИ. Hacker News · Модели и релизы MiniMax представила модель M3 с архитектурой разреженного внимания Компания MiniMax выпустила новую модель M3, ориентированную на работу с длинными контекстами и создание агентных систем. Ключевой особенностью архитектуры стало использование разреженного внимания (sparse attention), что позволяет эффективно обрабатывать огромные объемы данных, сохраняя высокую скорость инференса и точность при выполнении сложных многошаговых задач, требующих удержания контекста на протяжении длительного времени. MarkTechPost · Модели и релизы MiniMax представила MSA: эффективный механизм сжатого внимания Компания MiniMax анонсировала MSA (MiniMax Sparse Attention) — новый механизм сжатого внимания, основанный на Grouped Query Attention (GQA). MSA использует двухветвую архитектуру: лёгкий Index Branch выбирает Top-k блоков ключ-значение для каждого запроса и группы GQA, а Main Branch обрабатывает только эти блоки. Together.ai · Инференс и железо Mamba-3: новая модель для быстрого инференса Компания Together.ai представила Mamba-3 — новую модель на основе архитектуры Selective State Spaces (SSM). Она предназначена для ускоренного инференса и превосходит трансформеры по скорости декодирования. Hacker News · Инференс и железо Оптимизация разрешенного внимания MiniMax M3 для архитектуры Nvidia Blackwell Инженеры Fireworks AI представили методы оптимизации для модели MiniMax M3, сфокусировавшись на ускорении работы разреженного внимания (sparse attention) на новейших графических процессорах Nvidia Blackwell. Благодаря кастомным ядрам CUDA удалось значительно повысить пропускную способность инференса, минимизировав накладные расходы при обработке длинных контекстов, что критически важно для эффективного развертывания современных LLM в продакшене. Together.ai · Инференс и железо Как масштабировать инференс ИИ-моделей эффективно Компания Together.ai опубликовала исследование, посвящённое эффективному масштабированию инференса ИИ-моделей. По мере перехода ИИ из исследовательской фазы в промышленное использование ключевой задачей становится не только создание моделей, но и их эффективная, надёжная и масштабируемая эксплуатация. NVIDIA Technical Blog · Инференс и железо MiniMax M3 и NVIDIA для агентных workflows с длинным контекстом NVIDIA и MiniMax представили решение для развёртывания агентных workflows с поддержкой длинного контекста. Это важно для разработчиков, которым приходится собирать фрагментированные пайплайны из разных моделей для текста, изображения и других задач. Together.ai · Оркестрация агентов Together AI ускорила инференс моделей в 2.6 раза Together AI представила новую систему оркестрации для запуска кастомных моделей — Dedicated Container Inference. Она обеспечивает ускорение инференса в 1.4–2.6 раза по сравнению с традиционными подходами. Together.ai · Машинное обучение Together AI представила FlashAttention-4 и ThunderAgent На конференции AI Native Conf компания Together AI анонсировала несколько ключевых разработок в области инференса и оптимизации моделей. Среди них — FlashAttention-4, ускоряющая вычисления внимания, и ThunderAgent, платформа для развертывания агентов. Hacker News · Инфраструктура для агентов Cursor и Together AI оптимизировали инференс для ускорения работы ИИ-кодинга Редактор кода Cursor интегрировал облачную инфраструктуру Together AI для обеспечения высокоскоростного инференса моделей в реальном времени. Это партнерство позволило значительно снизить задержки при генерации кода, обеспечивая бесшовный опыт для разработчиков, использующих LLM в IDE. Масштабируемое решение поддерживает работу с тяжелыми моделями, сохраняя высокую скорость отклика при выполнении сложных агентских задач по написанию и рефакторингу программного обеспечения.

← Все материалы