Платформа Modal запустила сервис Auto Endpoints, предназначенный для упрощения развертывания и масштабирования инференса нейросетей. Инструмент автоматически управляет инфраструктурой, позволяя разработчикам запускать модели через API без необходимости ручной настройки серверов, управления очередями или конфигурации масштабирования. Система берет на себя распределение нагрузки и оптимизацию ресурсов, обеспечивая работу моделей в облачной среде с минимальными задержками.

Ключевая особенность решения заключается в поддержке «холодного старта» и динамического управления мощностями. Auto Endpoints автоматически активирует вычислительные ресурсы при поступлении запросов и переходит в спящий режим при их отсутствии, что позволяет сократить расходы на облачную инфраструктуру. Сервис поддерживает работу с популярными библиотеками для инференса, включая vLLM, что упрощает интеграцию существующих моделей в продакшн-среду.

Новый функционал ориентирован на создание масштабируемых агентных систем и сервисов, требующих стабильного доступа к LLM. Разработчики получают возможность развертывать модели как управляемые эндпоинты, сохраняя при этом контроль над выбором железа и конфигурацией окружения. Это решение снижает порог входа для запуска высокопроизводительных моделей, автоматизируя процессы, которые ранее требовали глубокой экспертизы в DevOps и управлении облачными кластерами.