Исследователи представили CrossPool — метод эффективного обслуживания множества разреженных MoE-моделей (Mixture-of-Experts). Решение разделяет управление весами моделей и KV-кэшем, что позволяет динамически распределять ресурсы памяти GPU. Это минимизирует потери при работе с «холодными» моделями, которые редко достигают пиковой нагрузки, и значительно повышает плотность размещения моделей на одном сервере.

В современных инфраструктурах обслуживания LLM часто возникает проблема неэффективного использования видеопамяти. Поскольку веса моделей статичны, а объемы KV-кэша зависят от входящего трафика, резервирование памяти под худший сценарий для каждой модели приводит к избыточному потреблению ресурсов. CrossPool решает эту задачу, внедряя механизм совместного использования пула памяти для KV-кэша, который адаптируется к реальным запросам в режиме реального времени.

Система позволяет эффективно масштабировать сервисы, использующие большое количество различных MoE-моделей. За счет дезагрегации весов и кэша, CrossPool обеспечивает более высокую пропускную способность и снижает требования к объему VRAM, что критически важно для развертывания сложных агентных систем и многопользовательских платформ с ограниченным аппаратным обеспечением.

Ключевые факты

  • CrossPool разделяет управление весами и KV-кэшем для оптимизации использования GPU.
  • Метод нацелен на решение проблемы «холодных» MoE-моделей, которые занимают память, но редко используются.
  • Динамическое распределение KV-кэша позволяет избежать резервирования памяти по принципу худшего сценария.
  • Подход повышает плотность размещения моделей на сервере, снижая общие затраты на инфраструктуру инференса.