Компания Together.ai представила подход к оптимизации работы модели MiniMax-M3, позволяющий эффективно обрабатывать контекст из 1 миллиона токенов и поддерживать мультимодальность. В основе решения лежит использование KV-block-major sparse attention, что позволяет значительно сократить вычислительные затраты при работе с большими контекстами.

Для ускорения декодирования применяется paged MSA decode, а также оптимизированный алгоритм индексирования. Эти технологии позволяют минимизировать задержки и повысить производительность модели.

Кроме того, Together.ai разработал шлюз на основе Rust, который обеспечивает поддержку мультимодальных данных. Это позволяет модели обрабатывать не только текст, но и изображения, что расширяет её возможности для различных задач.

Подход, предложенный Together.ai, демонстрирует, как можно эффективно использовать мощные модели, такие как MiniMax-M3, для решения сложных задач с минимальными затратами ресурсов.