Hacker News · 16.06.2026 ·Инференс и железо

Экономия 67% на инференсе с Ray и vLLM на AMD MI325X

Команда Anyscale опубликовала исследование, в котором продемонстрировала значительную экономию на инференсе моделей большого языка. Используя Ray и vLLM на процессорах AMD MI325X, удалось достичь сокращения затрат на 67% за счёт разнесения (disaggregation) префикса и декодирования.

В исследовании показано, как распределение вычислений между разными узлами позволяет оптимизировать использование ресурсов. Это особенно важно для разработчиков ИИ-агентов, где инференс моделей может составлять значительную часть затрат.

Ray — это фреймворк для распределённых вычислений, а vLLM — библиотека для эффективного инференса моделей большого языка. Комбинация этих технологий с процессорами AMD MI325X позволяет значительно снизить стоимость инференса без потери производительности.

Для команды Jarv это важно, так как позволяет рассмотреть альтернативные решения для инференса, которые могут снизить затраты на развёртывание и эксплуатацию ИИ-агентов. Использование распределённых вычислений и оптимизации на уровне железа может стать ключевым фактором в конкурентоспособности продукта.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Инференс и железо Производительность GLM-5.2 на ускорителях AMD MI355X Компания Wafer представила результаты тестирования модели GLM-5.2 на базе ускорителей AMD Instinct MI355X. Система продемонстрировала скорость инференса 2626 токенов в секунду на узел. По расчетам разработчиков, стоимость эксплуатации данного решения оказывается более чем в два раза ниже по сравнению с использованием архитектуры NVIDIA Blackwell при сопоставимых задачах масштабирования. arXiv · Инференс и железо Энергопотребление VLM на периферийных устройствах: визуальные токены не главная проблема Исследователи провели системный анализ энергопотребления мультимодальных моделей (VLM) на граничных устройствах, опровергнув устоявшееся мнение о том, что обработка визуальных данных является основным источником затрат энергии. Выяснилось, что при инференсе на edge-железе генерация текста потребляет значительно больше ресурсов, чем визуальный энкодер, что требует пересмотра стратегий оптимизации для автономных ИИ-систем и робототехники. Hacker News · Разработка и инструменты Оптимизация потребления токенов ИИ-агентами на 94% Разработчик Вивек Халдар представил метод радикального снижения затрат на токены при работе ИИ-агентов, добившись сокращения расхода на 94%. Вместо использования стандартных промптов для выполнения повторяющихся задач, автор перевел логику агента в скомпилированный код. Это позволило заменить длинные инструкции на вызов специализированных функций, что значительно повысило эффективность и предсказуемость системы. Hacker News · Инфраструктура для агентов Новый подход к компиляции для LLM и моделей мира Исследователи представили концепцию специализированного компилятора, предназначенного для оптимизации работы LLM и моделей мира. Система переводит высокоуровневые агентные задачи в эффективный машинный код, минимизируя задержки при выполнении сложных логических цепочек. Это решение направлено на повышение производительности систем, работающих в режиме реального времени, и создание более надежной инфраструктуры для будущих автономных ИИ-агентов. Hacker News · Инференс и железо VoltanaLLM: оптимизация энергопотребления при инференсе больших языковых моделей Исследователи представили VoltanaLLM — систему для повышения энергоэффективности при развертывании больших языковых моделей. Решение оптимизирует процесс инференса, снижая потребление электроэнергии без существенной потери точности вычислений. Технология ориентирована на серверные инфраструктуры, где затраты на питание и охлаждение GPU становятся критическим фактором при масштабировании агентных систем и сложных LLM-приложений. Hacker News · Инференс и железо Ускорение инференса LLM на GPU AMD через оптимизацию GEMM AMD представила новые методы оптимизации операций матричного умножения (GEMM) для своих графических процессоров, направленные на снижение задержек при работе с большими языковыми моделями. Обновления в программном стеке ROCm позволяют значительно повысить производительность инференса, обеспечивая более эффективную обработку запросов в реальном времени и оптимизируя использование вычислительных ресурсов архитектуры CDNA. Hacker News · Инференс и железо Запуск LLM пограничного класса на CPU ноутбука Проект cpubrrr представил решение для запуска больших языковых моделей (LLM) уровня Frontier на обычных потребительских процессорах. Инструмент оптимизирует процесс инференса, позволяя использовать мощные модели без необходимости в специализированных GPU. Это открывает возможности для локальной работы с продвинутым ИИ на стандартном аппаратном обеспечении, снижая порог входа для локальных агентных систем и приватных вычислений. Hacker News · Инференс и железо Оптимизация инференса LLM через использование GPU-шейдеров Исследование демонстрирует возможности ускорения работы больших языковых моделей за счет переноса вычислительных задач на GPU-шейдеры. Автор анализирует, как низкоуровневое программирование графических процессоров позволяет оптимизировать выполнение операций, критически важных для инференса LLM. Подход открывает новые пути для повышения производительности локальных моделей на потребительском железе через более эффективное управление параллельными вычислениями и памятью видеокарт. Hacker News · Исследования и наука Влияние вычислительных затрат на производительность LLM Исследование анализирует, как изменение вычислительных ресурсов, выделяемых на инференс одной и той же языковой модели, влияет на качество генерации ответов. Авторы разбирают механизмы масштабирования «усилий» (effort) — таких как увеличение количества токенов для рассуждений или использование методов поиска — и их реальный вклад в точность решения сложных задач. Hacker News · Инференс и железо Оптимизация инференса: объединение шагов декодирования 27B модели в один CUDA-ядро Исследователи представили метод оптимизации инференса для 27-миллиардных тернарных LLM, объединяющий весь процесс декодирования в единое CUDA-ядро. Это решение радикально снижает накладные расходы на передачу данных между памятью и вычислительными блоками GPU, позволяя значительно увеличить пропускную способность и скорость генерации токенов при сохранении высокой точности работы квантованных моделей на потребительском и серверном железе.

← Все материалы