Исследователи представили метод распределенного инференса для MoE-модели (Mixture of Experts) объемом 229 миллиардов параметров, работающий в интерактивном режиме через интернет. Технология позволяет запускать тяжелые языковые модели, используя вычислительные мощности нескольких узлов, объединенных сетью, что значительно снижает требования к локальному оборудованию при сохранении высокой скорости генерации токенов.

Основная сложность запуска моделей такого масштаба заключается в колоссальном объеме видеопамяти, необходимой для размещения весов. Новый подход использует шардирование (разделение) модели на части, которые распределяются между участниками сети. Благодаря оптимизации передачи данных и эффективному управлению весами экспертов, задержки при обмене информацией между узлами минимизируются, позволяя достичь скорости, приемлемой для пользовательских интерфейсов.

Эта архитектура открывает возможности для создания децентрализованных сетей инференса, где вычислительные ресурсы объединяются для выполнения задач, недоступных для одиночных серверов. Метод демонстрирует потенциал использования распределенных систем для работы с крупными нейросетями, что может изменить подход к развертыванию инфраструктуры для тяжелых LLM в условиях ограниченного доступа к высокопроизводительным GPU-кластерам.

Ключевые факты

  • Модель: Mixture of Experts (MoE) с общим объемом 229 миллиардов параметров.
  • Метод: Шардирование весов модели между географически распределенными узлами.
  • Скорость: Достигнута интерактивная скорость генерации текста через интернет-соединение.
  • Масштабируемость: Технология позволяет объединять вычислительные ресурсы различных участников для выполнения единой задачи инференса.