Инженеры Modal оптимизировали архитектуру обработки запросов к LLM, сократив время проксирования до 6 миллисекунд. Решение базируется на использовании прокси-сервера Pingora от Cloudflare, интеграции с Envoy и распределенной базе данных Google Cloud Spanner. Такой подход позволяет минимизировать сетевые задержки при маршрутизации трафика к GPU-инстансам в серверлесс-среде, обеспечивая высокую производительность для агентных систем.

Основная сложность при масштабировании инференса заключается в накладных расходах на сетевые переходы и синхронизацию состояния между узлами. Использование Pingora позволило заменить стандартные решения на более легковесный и гибкий инструмент, способный эффективно управлять соединениями в условиях высокой нагрузки. Внедрение Spanner обеспечило глобальную консистентность данных, что критически важно для распределенных систем, работающих с состоянием моделей в реальном времени.

Архитектурный стек был переработан для устранения «узких мест» в цепочке прохождения запроса от клиента до вычислительного узла. Переход на кастомную конфигурацию проксирования позволил не только снизить latency, но и повысить надежность всей инфраструктуры при обработке тысяч одновременных вызовов. Это решение демонстрирует, как низкоуровневая оптимизация сетевого уровня напрямую влияет на скорость отклика ИИ-сервисов.

Ключевые факты

  • Достигнутая задержка проксирования запросов составляет 6 миллисекунд.
  • В архитектуре задействован прокси-сервер Pingora, разработанный Cloudflare для высоконагруженных систем.
  • Google Cloud Spanner используется как основное хранилище для обеспечения глобальной консистентности состояния.
  • Оптимизация направлена на снижение накладных расходов в серверлесс-инфраструктуре для инференса моделей.
  • Использование Envoy в связке с Pingora позволило гибко управлять маршрутизацией трафика между вычислительными узлами.