MarkTechPost · 17.06.2026 ·Модели и релизы

MiniMax представила MSA: эффективный механизм сжатого внимания

MiniMax представила MSA: эффективный механизм сжатого внимания

Компания MiniMax анонсировала MSA (MiniMax Sparse Attention) — новый механизм сжатого внимания, основанный на Grouped Query Attention (GQA). MSA использует двухветвую архитектуру: лёгкий Index Branch выбирает Top-k блоков ключ-значение для каждого запроса и группы GQA, а Main Branch обрабатывает только эти блоки.

По словам разработчиков, MSA демонстрирует сопоставимые результаты с GQA на бенчмарках, но снижает вычислительные затраты на внимание на 28,4 раза при контексте в 1 миллион токенов. Модель была обучена на MoE (Mixture of Experts) с 109 миллиардами параметров и бюджетом в 3 триллиона токенов.

MSA может стать важным шагом в оптимизации больших языковых моделей, особенно для задач с длинным контекстом, где вычислительные затраты традиционно высоки. Технология может найти применение в различных ИИ-сервисах, требующих обработки больших объёмов данных с минимальными затратами ресурсов.

Источник: MarkTechPost

Обсудить с ИИ

Похожие материалы

Hacker News · Модели и релизы MiniMax представила модель M3 с архитектурой разреженного внимания Компания MiniMax выпустила новую модель M3, ориентированную на работу с длинными контекстами и создание агентных систем. Ключевой особенностью архитектуры стало использование разреженного внимания (sparse attention), что позволяет эффективно обрабатывать огромные объемы данных, сохраняя высокую скорость инференса и точность при выполнении сложных многошаговых задач, требующих удержания контекста на протяжении длительного времени. Together.ai · Инференс и железо Как Together оптимизировал MiniMax-M3 для эффективного инференса Компания Together.ai представила подход к оптимизации работы модели MiniMax-M3, позволяющий эффективно обрабатывать контекст из 1 миллиона токенов и поддерживать мультимодальность. В основе решения лежит использование KV-block-major sparse attention, что позволяет значительно сократить вычислительные затраты при работе с большими контекстами. Hacker News · Модели и релизы SubQ 1.1: линейное масштабирование внимания с 98% точностью Исследователи представили обновлённую версию SubQ 1.1, модели, использующей линейно-масштабируемое разреженное внимание. Новый алгоритм обеспечивает 98% точность извлечения данных при работе с 12 миллионами токенов. Hacker News · Инференс и железо Оптимизация разрешенного внимания MiniMax M3 для архитектуры Nvidia Blackwell Инженеры Fireworks AI представили методы оптимизации для модели MiniMax M3, сфокусировавшись на ускорении работы разреженного внимания (sparse attention) на новейших графических процессорах Nvidia Blackwell. Благодаря кастомным ядрам CUDA удалось значительно повысить пропускную способность инференса, минимизировав накладные расходы при обработке длинных контекстов, что критически важно для эффективного развертывания современных LLM в продакшене. NVIDIA Technical Blog · Инференс и железо MiniMax M3 и NVIDIA для агентных workflows с длинным контекстом NVIDIA и MiniMax представили решение для развёртывания агентных workflows с поддержкой длинного контекста. Это важно для разработчиков, которым приходится собирать фрагментированные пайплайны из разных моделей для текста, изображения и других задач. The latest research from Google · Машинное обучение Sequential Attention: как ускорить модели без потери точности Исследователи Google предложили новый подход к оптимизации трансформеров — Sequential Attention. Он позволяет значительно сократить вычислительные затраты на инференс, не жертвуя точностью. В основе метода лежит идея последовательного внимания: вместо параллельной обработки всех токенов модель фокусируется на одном токене за раз, используя информацию из предыдущих шагов. Это снижает сложность вычислений с O(n²) до O(n log n), что делает модели более эффективными для локального развертывания и работы в реальном времени. Hacker News · Инференс и железо Ускорение LLM через разреженное внимание и конечные автоматы Исследователи представили новый метод ускорения работы больших языковых моделей, основанный на использовании разреженного внимания (Sparse Attention) в сочетании с архитектурой конечных автоматов с постоянным состоянием. Этот подход позволяет значительно сократить вычислительные затраты при инференсе, сохраняя при этом точность генерации текста, что критически важно для развертывания тяжелых моделей на ограниченных аппаратных ресурсах. The Gradient · Инфраструктура для агентов Mamba: новая архитектура для обработки длинных последовательностей Mamba — это новая архитектура нейросетевых моделей, основанная на State Space Models (SSMs). Она позиционируется как серьезная альтернатива Transformer-моделям, которые, несмотря на свою популярность, сталкиваются с проблемами эффективности при обработке длинных последовательностей. Hacker News · Исследования и наука Технологический прорыв DeepSeek в архитектуре нейросетей Китайская исследовательская лаборатория DeepSeek представила архитектуру, которая существенно меняет подход к обучению и работе крупных языковых моделей. В основе решения лежит использование архитектуры Mixture-of-Experts (MoE) с глубокой оптимизацией процесса активации параметров. Вместо того чтобы задействовать всю нейросеть целиком для каждого запроса, система активирует лишь малую часть весов, что позволяет радикально снизить вычислительные затраты при сохранении высокой точности ответов. arXiv · Машинное обучение AVQ-Attention: новый метод оптимизации внимания в трансформерах Исследователи представили AVQ-Attention — метод адаптивного векторного квантования для механизмов внимания в трансформерах. В отличие от стандартных подходов, равномерно распределяющих вычислительные ресурсы, этот алгоритм динамически перераспределяет емкость кодовой книги. Это позволяет эффективнее обрабатывать области с высокой концентрацией внимания, снижая вычислительную сложность с квадратичной до линейной относительно длины последовательности при сохранении точности модели.

← Все материалы