Инженеры Modal оптимизировали архитектуру обработки запросов к LLM, сократив время проксирования до 6 миллисекунд. Решение базируется на использовании прокси-сервера Pingora от Cloudflare, интеграции с Envoy и распределенной базе данных Google Cloud Spanner. Такой подход позволяет минимизировать сетевые задержки при маршрутизации трафика к GPU-инстансам в серверлесс-среде, обеспечивая высокую производительность для агентных систем.
Основная сложность при масштабировании инференса заключается в накладных расходах на сетевые переходы и синхронизацию состояния между узлами. Использование Pingora позволило заменить стандартные решения на более легковесный и гибкий инструмент, способный эффективно управлять соединениями в условиях высокой нагрузки. Внедрение Spanner обеспечило глобальную консистентность данных, что критически важно для распределенных систем, работающих с состоянием моделей в реальном времени.
Архитектурный стек был переработан для устранения «узких мест» в цепочке прохождения запроса от клиента до вычислительного узла. Переход на кастомную конфигурацию проксирования позволил не только снизить latency, но и повысить надежность всей инфраструктуры при обработке тысяч одновременных вызовов. Это решение демонстрирует, как низкоуровневая оптимизация сетевого уровня напрямую влияет на скорость отклика ИИ-сервисов.
Ключевые факты
- Достигнутая задержка проксирования запросов составляет 6 миллисекунд.
- В архитектуре задействован прокси-сервер Pingora, разработанный Cloudflare для высоконагруженных систем.
- Google Cloud Spanner используется как основное хранилище для обеспечения глобальной консистентности состояния.
- Оптимизация направлена на снижение накладных расходов в серверлесс-инфраструктуре для инференса моделей.
- Использование Envoy в связке с Pingora позволило гибко управлять маршрутизацией трафика между вычислительными узлами.