Команда Anyscale опубликовала исследование, в котором продемонстрировала значительную экономию на инференсе моделей большого языка. Используя Ray и vLLM на процессорах AMD MI325X, удалось достичь сокращения затрат на 67% за счёт разнесения (disaggregation) префикса и декодирования.
В исследовании показано, как распределение вычислений между разными узлами позволяет оптимизировать использование ресурсов. Это особенно важно для разработчиков ИИ-агентов, где инференс моделей может составлять значительную часть затрат.
Ray — это фреймворк для распределённых вычислений, а vLLM — библиотека для эффективного инференса моделей большого языка. Комбинация этих технологий с процессорами AMD MI325X позволяет значительно снизить стоимость инференса без потери производительности.
Для команды Jarv это важно, так как позволяет рассмотреть альтернативные решения для инференса, которые могут снизить затраты на развёртывание и эксплуатацию ИИ-агентов. Использование распределённых вычислений и оптимизации на уровне железа может стать ключевым фактором в конкурентоспособности продукта.