Moe Estimator — это калькулятор для моделирования скорости декодирования Mixture-of-Experts (MoE) моделей с учетом стратегии скрытия задержек через послойную предварительную выборку (layer-major prefetch). Инструмент позволяет инженерам прогнозировать производительность инференса в зависимости от конфигурации аппаратного обеспечения и архитектурных параметров модели, помогая оптимизировать пропускную способность при работе с большими языковыми моделями.
Основная проблема при запуске MoE-моделей заключается в высокой стоимости передачи весов экспертов из памяти в вычислительные блоки. Метод послойной предварительной выборки позволяет перекрывать время передачи данных с временем вычислений, что критически важно для снижения задержек при генерации токенов. Калькулятор визуализирует, как изменение параметров памяти и пропускной способности шины влияет на итоговую скорость декодирования.
Инструмент ориентирован на разработчиков инфраструктуры, занимающихся развертыванием моделей с архитектурой MoE. Он позволяет оценить эффективность использования кэша и пропускную способность памяти, что помогает принимать решения о выборе серверного оборудования или оптимизации стратегий параллелизма при масштабировании LLM в продакшн-средах.
Ключевые факты
- Инструмент моделирует влияние послойной предварительной выборки на скорость генерации токенов.
- Учитываются параметры пропускной способности памяти и задержки при передаче весов экспертов.
- Калькулятор предназначен для оценки производительности MoE-архитектур, где не все параметры модели активны при каждом проходе.
- Моделирование помогает выявить узкие места в инфраструктуре инференса до этапа реального развертывания.