Инференс и железо
Как Together AI ускоряет работу моделей на GPU
Команда Together AI, известная разработками FlashAttention и ThunderKittens, занимается оптимизацией работы моделей на графических процессорах. Их исследования направлены на сокращение разрыва между возможностями GPU и реальными задачами в производстве ИИ.
Aurora: фреймворк для самоподдерживающегося speculative decoding
Together AI представила Aurora — открытый фреймворк для reinforcement learning (RL), который преобразует speculative decoding из одноразовой настройки в самоулучшающуюся систему. Aurora обучается на каждом запросе, что позволяет повысить производительность модели на 25% по сравнению с традиционными методами.
Mamba-3: новая модель для быстрого инференса
Компания Together.ai представила Mamba-3 — новую модель на основе архитектуры Selective State Spaces (SSM). Она предназначена для ускоренного инференса и превосходит трансформеры по скорости декодирования.
Mistral AI и NVIDIA ускорят разработку открытых моделей
Mistral AI и NVIDIA объявили о стратегическом партнёрстве, направленном на ускорение разработки и внедрения открытых моделей. Компании планируют совместно оптимизировать модели Mistral для работы на графических процессорах NVIDIA, что позволит повысить их производительность и доступность.
Together AI представила новые решения для инференса и агентов на NVIDIA GTC 2026
Together AI выступила на конференции NVIDIA GTC 2026 с рядом новых разработок. В фокусе — инференс, агентные технологии, голосовой ИИ и открытые модели. Компания также провела технические сессии, где её исследователи и инженеры поделились деталями новых решений.
Together AI запустила NVIDIA Nemotron 3 Super для разработчиков
Together AI объявила о доступности модели NVIDIA Nemotron 3 Super на своей платформе Dedicated Inference. Это решение обеспечивает эффективное многоагентное рассуждение, поддерживает контекстное окно в 1 миллион токенов и готово к промышленному развёртыванию на управляемой инфраструктуре.
CPD-архитектура ускоряет работу LLM с длинными контекстами на 40%
Together AI представила архитектуру Cache-aware prefill–decode disaggregation (CPD), которая ускоряет обработку длинных контекстов в LLM. Технология разделяет «тёплые» и «холодные» вычисления, что позволяет увеличить пропускную способность на 40% и сократить время до первого токена.
FLUX.2 доступна на Replicate для локального запуска
Компания Replicate добавила поддержку модели FLUX.2, которая предлагает профессиональный уровень генерации и редактирования изображений. FLUX.2 отличается высокой детализацией, поддержкой нескольких ссылок и эффективностью для корпоративных задач.
Torch compile caching для ускорения инференса
Компания Replicate представила технологию Torch compile caching, которая позволяет кэшировать скомпилированные модели для ускорения времени загрузки и выполнения инференса. Это решение особенно полезно для пользователей, работающих с большими моделями, так как значительно сокращает время запуска и обработки запросов.
Mistral Compute: инфраструктура для локального запуска моделей
Mistral AI представила Mistral Compute — инфраструктуру для локального запуска больших языковых моделей. Решение позволяет развернуть модели на собственных серверах или в облаке, обеспечивая контроль над данными и снижая зависимость от сторонних сервисов.
OpenAI выпустила GPT-4.1 и GPT-4o на Replicate
Replicate добавила поддержку последних моделей OpenAI, включая GPT-4.1, GPT-4o и серию o-моделей. Теперь разработчики могут запускать эти модели локально или в облаке через API Replicate.
NVIDIA H100: новые GPU для ИИ
NVIDIA представила свои новые графические процессоры H100, которые обещают улучшенную производительность и снижение затрат. Эти GPU предназначены для работы с искусственным интеллектом и машинным обучением, что делает их важным инструментом для разработчиков и исследователей.
Replicate интегрировал запуск LoRAs на Hugging Face
Replicate и Hugging Face объединили усилия, чтобы предоставить пользователям возможность запускать более 30 000 LoRAs (Low-Rank Adaptations) через платформу Hugging Face. LoRAs — это лёгкие адаптации больших языковых моделей, которые позволяют тонко настраивать их под конкретные задачи без переобучения всей модели.