ServiceNow представила обновлённую версию vLLM (v1), которая фокусируется на корректности перед исправлениями в RL (reinforcement learning). Новый подход позволяет ускорить инференс моделей без ущерба для точности, что особенно важно для агентов, работающих в реальном времени.

Ключевое отличие v1 — это изменение приоритетов: вместо быстрого исправления ошибок модель сначала стремится к максимальной корректности. Это достигается за счёт оптимизации архитектуры и алгоритмов, что позволяет снизить задержки при обработке запросов.

Для разработчиков ИИ-агентов, таких как Jarv, это важно, так как скорость и точность инференса напрямую влияют на пользовательский опыт. vLLM v1 может быть интегрирован в существующие системы для повышения производительности без необходимости перестройки всей инфраструктуры.

ServiceNow также отмечает, что v1 поддерживает широкий спектр моделей, включая те, которые используются в агентных системах. Это делает решение универсальным и применимым для различных задач, от обработки естественного языка до более сложных сценариев, требующих высокой точности.