Инференс и железо
Как развернуть AI-приложения на Claude Code и Cloudflare
В новом видео показано, как развернуть AI-приложения с использованием Claude Code и Cloudflare. Автор демонстрирует процесс создания и развертывания приложений, используя возможности облачных сервисов для работы с искусственным интеллектом.
Tokdiet: прокси для локального запуска LLM с экономией токенов
Разработчики представили Tokdiet — прокси-сервер для локального запуска языковых моделей, который сокращает расход токенов на 70% без потери качества. Решение работает как промежуточный слой между пользователем и моделью, оптимизируя запросы и уменьшая объём передаваемых данных.
Ускорение матричных операций на GPU в 2678 раз
Исследователи обнаружили, что графические процессоры (GPU) могут ускорять матричные операции в 2678 раз по сравнению с традиционными методами. Это открытие имеет значительное значение для машинного обучения и обработки больших данных, где матричные вычисления являются ключевым элементом.
Lexar предлагает хранить локальные модели ИИ на SSD
Компания Lexar разрабатывает решение для размещения локальных моделей ИИ на SSD. Это связано с растущим спросом на вычислительные ресурсы и ограниченной доступностью оперативной памяти.
AMD оптимизировала вычисления для ИИ-моделей на CDNA4
Компания AMD представила оптимизации для вычислений матричных операций (GEMM) в формате FP8 на архитектуре CDNA4. Это позволит ускорить работу ИИ-моделей на графических процессорах Instinct серии MI300X.
Расчёт стоимости инференса на примере
Разработчики из компании July поделились методом расчёта стоимости инференса для масштабируемых ИИ-систем. В статье объясняется, как оценить затраты на вычисления с учётом различных факторов, включая стоимость оборудования, энергопотребление и время обработки запросов.
Оркестратор OrcaRouter объединил несколько моделей в одну
Компания OrcaRouter представила новый подход к инференсу, который позволяет объединять несколько моделей в одну. Вместо увеличения размера модели разработчики предложили использовать панель, которая объединяет несколько моделей в одну систему. Это позволяет значительно улучшить производительность и точность без увеличения вычислительных затрат.
Расчёт загрузки GPU AMD MI355X для инференса моделей
Инженеры из Indianspeedster опубликовали подробное руководство по расчёту загрузки GPU AMD MI355X. В статье разбираются ключевые параметры, влияющие на производительность при инференсе моделей: количество потоков, блоки вычислений и другие технические аспекты.
Как использовать внешний GPU Nvidia с Mac для локального запуска ИИ
В 2026 году владельцы Mac смогут использовать внешние графические процессоры Nvidia для локального запуска моделей искусственного интеллекта. Это решение особенно актуально для разработчиков, которым требуется высокая вычислительная мощность, но у которых нет доступа к специализированным серверам.
Sors: прокси на Rust для оптимизации кэша vLLM
Разработчики представили Sors — прокси-сервер на Rust, который переупорядочивает запросы к моделям, чтобы максимизировать использование префиксного кэша vLLM. Это позволяет ускорить обработку запросов и снизить нагрузку на вычислительные ресурсы.
Обучение NanoGPT в кластере Slurm с фиксированной средой Nix
Разработчики поделились опытом обучения модели NanoGPT в кластере Slurm с использованием фиксированной среды Nix. Это позволяет обеспечить воспроизводимость экспериментов и упростить развёртывание в вычислительных кластерах.
Google представил пять поколений суперкомпьютеров для обучения ИИ
Google опубликовал исследование, в котором подробно описаны пять поколений своих суперкомпьютеров для обучения ИИ. Линейка начинается с TPU v2 и заканчивается Ironwood, последним на данный момент поколением.
INT21: фабрика ядер для ускорения вычислений в ИИ
Команда INT21 представила PTX Kernel Factory — инструмент для автоматической генерации и оптимизации ядер на уровне PTX (Parallel Thread Execution). Это позволяет ускорять вычисления в ИИ-моделях, особенно на графических процессорах NVIDIA.
Ubuntu Core 26 для локального запуска ИИ-моделей
Компания Canonical представила Ubuntu Core 26, новую версию операционной системы, ориентированную на создание локальных устройств для инференса ИИ-моделей. Основное внимание разработчики уделили поддержке высокопроизводительных вычислений и интеграции с популярными фреймворками для работы с искусственным интеллектом.
Qualcomm разрабатывает 40 новых AI-чипов для будущих устройств
Qualcomm активно работает над более чем 40 новыми проектами AI-чипов. Компания планирует стать ключевым поставщиком процессоров для устройств, которые в будущем заменят смартфоны. В рамках этой стратегии Qualcomm представила два новых продукта, направленных на поддержку новых форматов устройств.
Infer0 предлагает альтернативу подпискам для запуска ИИ-моделей
Infer0 — это платформа, которая позволяет запускать ИИ-модели без подписок. Сервис предлагает оплату за использование по факту, что может быть выгодно для разработчиков и пользователей, которым не нужны постоянные подписки.
SubQ 1.1 Small: локальный запуск моделей с улучшенной производительностью
Команда Subquadratic представила обновлённую версию SubQ 1.1 Small — фреймворка для локального запуска моделей. Новая версия предлагает улучшенную производительность и снижение требований к ресурсам, что делает её более доступной для использования на обычных ноутбуках и персональных компьютерах.
Новый фреймворк для JIT-компиляции ускоряет работу ИИ-моделей
Исследователи представили новый фреймворк для JIT-компиляции, который может значительно ускорить выполнение ИИ-моделей. Система использует многоуровневую JIT-компиляцию в рамках мета-трейсинга, что позволяет оптимизировать код на лету и повышать производительность.
Как масштабировать модели на TPU
Команда Jax ML выпустила подробное руководство по масштабированию больших языковых моделей на тензорных процессорах (TPU). Документ охватывает ключевые аспекты инфраструктуры, включая распределение вычислений, оптимизацию памяти и управление ресурсами.
Рост мощности дата-центров для ИИ-инференса
Дата-центры продолжают наращивать мощности для поддержки растущих нагрузок от ИИ-моделей. По данным Next Platform, спрос на вычислительные ресурсы для инференса растёт экспоненциально, что требует как обновления существующих дата-центров, так и строительства новых.
Tensordyne обещает революцию в инференсе благодаря логарифмической математике
Компания Tensordyne заявила о прорыве в области инференса, используя логарифмическую математику для ускорения вычислений. По их словам, новая архитектура позволяет значительно снизить затраты на вычисления и повысить скорость обработки запросов. Это особенно важно для разработчиков ИИ-агентов, так как инференс остается одной из самых затратных частей работы с моделями.
AMD Ryzen AI Halo для разработчиков ИИ
AMD представила Ryzen AI Halo — программу для разработчиков ИИ, которая включает доступ к новейшим процессорам с интегрированными нейросетевыми ускорителями. Это решение может значительно ускорить инференс моделей, что особенно важно для локального запуска ИИ-агентов.
MonoLisa 3: локальный запуск моделей с поддержкой текста
Команда MonoLisa представила третью версию своей платформы для локального запуска моделей, добавив поддержку текста через новую семью моделей MonoLisa Text. Это позволяет использовать платформу не только для работы с изображениями, но и для текстовых задач, что расширяет возможности локального инференса.
NVIDIA Blackwell лидирует в MLPerf Training 6.0
NVIDIA одержала победу во всех категориях MLPerf Training v6.0, превзойдя конкурентов по масштабу и производительности. Компания продемонстрировала лидерство в ключевых задачах обучения моделей, включая трансформеры и рекомендательные системы.