Инференс и железо

Как Together AI ускоряет работу моделей на GPU Together.ai · 31.03.2026 Команда Together AI, известная разработками FlashAttention и ThunderKittens, занимается оптимизацией работы моделей на графических процессорах. Их исследования направлены на сокращение разрыва между возможностями GPU и реальными задачами в производстве ИИ. Aurora: фреймворк для самоподдерживающегося speculative decoding Together.ai · 30.03.2026 Together AI представила Aurora — открытый фреймворк для reinforcement learning (RL), который преобразует speculative decoding из одноразовой настройки в самоулучшающуюся систему. Aurora обучается на каждом запросе, что позволяет повысить производительность модели на 25% по сравнению с традиционными методами. Mamba-3: новая модель для быстрого инференса Together.ai · 16.03.2026 Компания Together.ai представила Mamba-3 — новую модель на основе архитектуры Selective State Spaces (SSM). Она предназначена для ускоренного инференса и превосходит трансформеры по скорости декодирования. Mistral AI и NVIDIA ускорят разработку открытых моделей Mistral AI Blog · 16.03.2026 Mistral AI и NVIDIA объявили о стратегическом партнёрстве, направленном на ускорение разработки и внедрения открытых моделей. Компании планируют совместно оптимизировать модели Mistral для работы на графических процессорах NVIDIA, что позволит повысить их производительность и доступность. Together AI представила новые решения для инференса и агентов на NVIDIA GTC 2026 Together.ai · 15.03.2026 Together AI выступила на конференции NVIDIA GTC 2026 с рядом новых разработок. В фокусе — инференс, агентные технологии, голосовой ИИ и открытые модели. Компания также провела технические сессии, где её исследователи и инженеры поделились деталями новых решений. Together AI запустила NVIDIA Nemotron 3 Super для разработчиков Together.ai · 10.03.2026 Together AI объявила о доступности модели NVIDIA Nemotron 3 Super на своей платформе Dedicated Inference. Это решение обеспечивает эффективное многоагентное рассуждение, поддерживает контекстное окно в 1 миллион токенов и готово к промышленному развёртыванию на управляемой инфраструктуре. CPD-архитектура ускоряет работу LLM с длинными контекстами на 40% Together.ai · 03.03.2026 Together AI представила архитектуру Cache-aware prefill–decode disaggregation (CPD), которая ускоряет обработку длинных контекстов в LLM. Технология разделяет «тёплые» и «холодные» вычисления, что позволяет увеличить пропускную способность на 40% и сократить время до первого токена. FLUX.2 доступна на Replicate для локального запуска Replicate's blog · 24.11.2025 Компания Replicate добавила поддержку модели FLUX.2, которая предлагает профессиональный уровень генерации и редактирования изображений. FLUX.2 отличается высокой детализацией, поддержкой нескольких ссылок и эффективностью для корпоративных задач. Torch compile caching для ускорения инференса Replicate's blog · 07.09.2025 Компания Replicate представила технологию Torch compile caching, которая позволяет кэшировать скомпилированные модели для ускорения времени загрузки и выполнения инференса. Это решение особенно полезно для пользователей, работающих с большими моделями, так как значительно сокращает время запуска и обработки запросов. Mistral Compute: инфраструктура для локального запуска моделей Mistral AI Blog · 11.06.2025 Mistral AI представила Mistral Compute — инфраструктуру для локального запуска больших языковых моделей. Решение позволяет развернуть модели на собственных серверах или в облаке, обеспечивая контроль над данными и снижая зависимость от сторонних сервисов. OpenAI выпустила GPT-4.1 и GPT-4o на Replicate Replicate's blog · 21.05.2025 Replicate добавила поддержку последних моделей OpenAI, включая GPT-4.1, GPT-4o и серию o-моделей. Теперь разработчики могут запускать эти модели локально или в облаке через API Replicate. NVIDIA H100: новые GPU для ИИ Replicate's blog · 15.05.2025 NVIDIA представила свои новые графические процессоры H100, которые обещают улучшенную производительность и снижение затрат. Эти GPU предназначены для работы с искусственным интеллектом и машинным обучением, что делает их важным инструментом для разработчиков и исследователей. Replicate интегрировал запуск LoRAs на Hugging Face Replicate's blog · 14.05.2025 Replicate и Hugging Face объединили усилия, чтобы предоставить пользователям возможность запускать более 30 000 LoRAs (Low-Rank Adaptations) через платформу Hugging Face. LoRAs — это лёгкие адаптации больших языковых моделей, которые позволяют тонко настраивать их под конкретные задачи без переобучения всей модели.