Hugging Face - Blog · 06.05.2026 ·Инференс и железо

vLLM V1: как ServiceNow ускорил инференс без потери точности

vLLM V1: как ServiceNow ускорил инференс без потери точности

ServiceNow представила обновлённую версию vLLM (v1), которая фокусируется на корректности перед исправлениями в RL (reinforcement learning). Новый подход позволяет ускорить инференс моделей без ущерба для точности, что особенно важно для агентов, работающих в реальном времени.

Ключевое отличие v1 — это изменение приоритетов: вместо быстрого исправления ошибок модель сначала стремится к максимальной корректности. Это достигается за счёт оптимизации архитектуры и алгоритмов, что позволяет снизить задержки при обработке запросов.

Для разработчиков ИИ-агентов, таких как Jarv, это важно, так как скорость и точность инференса напрямую влияют на пользовательский опыт. vLLM v1 может быть интегрирован в существующие системы для повышения производительности без необходимости перестройки всей инфраструктуры.

ServiceNow также отмечает, что v1 поддерживает широкий спектр моделей, включая те, которые используются в агентных системах. Это делает решение универсальным и применимым для различных задач, от обработки естественного языка до более сложных сценариев, требующих высокой точности.

Источник: Hugging Face - Blog

Обсудить с ИИ

Похожие материалы

Mistral AI Blog · Инфраструктура для агентов Утечка памяти в vLLM: как её обнаружили и исправили Команда Mistral AI обнаружила и устранила утечку памяти в vLLM — популярном фреймворке для ускоренного инференса больших языковых моделей. Проблема заключалась в неправильной обработке промежуточных данных, что приводило к накоплению ненужной информации в оперативной памяти. Hacker News · Инфраструктура для агентов Micro-Agent: новый подход к коллаборации моделей через API Команда vLLM представила концепцию Micro-Agent, позволяющую превзойти возможности крупных фронтирных моделей за счет оркестрации множества специализированных агентов внутри API. Вместо использования одной монолитной модели система динамически распределяет задачи между узкоспециализированными компонентами, что повышает точность выполнения сложных запросов и снижает общие затраты на инференс при сохранении высокой производительности в агентных сценариях. Hacker News · Машинное обучение Компиляция агентных рабочих процессов в веса LLM Исследователи представили метод компиляции сложных агентных рабочих процессов непосредственно в веса больших языковых моделей. Вместо использования внешних оркестраторов или многошаговых промптов, логика выполнения задач «запекается» в архитектуру модели. Это позволяет значительно сократить задержки при инференсе и снизить потребность в дополнительных вычислительных ресурсах для управления цепочками рассуждений агента. Hacker News · Оценка и бенчмарки Инструменты для верификации действий ИИ-агентов Разработчики представили подход к верификации действий ИИ-агентов, основанный на исполняемых блокнотах. Решение позволяет автоматически проверять, действительно ли модель выполнила поставленную задачу, запуская код в изолированной среде. Это критически важный шаг для перехода от простого чат-интерфейса к надежным агентным системам, где результат работы ИИ требует программного подтверждения и воспроизводимости в реальных условиях. Hacker News · Оркестрация агентов Инструментарий для оркестрации ИИ-агентов с автороутингом и памятью Представлен новый фреймворк для управления ИИ-агентами, который автоматизирует выбор подходящей модели для конкретных задач и обеспечивает долгосрочное хранение контекста. Система позволяет динамически переключаться между различными LLM в зависимости от сложности запроса, оптимизируя баланс между стоимостью инференса и качеством генерации, а также поддерживает структурированную память для сохранения истории взаимодействия. Hacker News · ИИ в бизнесе Как Airbnb ускорила оценку LLM в десятки раз Инженеры Airbnb оптимизировали процесс оценки больших языковых моделей, сократив время цикла итерации с нескольких недель до одного дня. Команда внедрила масштабируемую систему автоматизированного тестирования, которая позволяет быстро проверять изменения в промптах и архитектуре, обеспечивая стабильное качество работы ИИ-сервисов в условиях высокой нагрузки и необходимости частых обновлений. arXiv · Исследования и наука Повышение надежности LLM через механизм селективного предсказания Исследователи представили новый метод повышения надежности больших языковых моделей (LLM) с помощью стратегии селективного предсказания (Selective Prediction). Подход позволяет модели самостоятельно определять случаи, в которых она с высокой вероятностью даст верный ответ, и отказываться от генерации при риске ошибки. Это критически важно для внедрения ИИ в системы принятия решений, где цена ошибки крайне высока. arXiv · Обучение и дообучение Использование RL-обучения для улучшения агентных способностей LLM Исследователи обнаружили, что стандартное обучение с подкреплением (RL) при дообучении моделей уже содержит скрытый потенциал для улучшения агентных навыков. Авторы работы доказывают, что этот процесс позволяет эффективно оценивать пошаговые действия моделей без необходимости в сложных внешних системах вознаграждения, что критически важно для решения долгосрочных задач в стохастических средах, где традиционные методы аннотирования данных практически не работают. Hugging Face - Blog · Инференс и железо Запуск vLLM-сервера на Hugging Face Jobs одной командой Hugging Face представила возможность развертывания высокопроизводительного сервера vLLM через сервис Jobs. Теперь пользователи могут запускать масштабируемые инференс-решения для LLM без необходимости ручной настройки инфраструктуры. Интеграция позволяет использовать мощные GPU-ресурсы платформы для обслуживания моделей, обеспечивая высокую пропускную способность и оптимизацию памяти, что значительно упрощает процесс перехода от экспериментов к продакшн-инференсу для разработчиков агентных систем. Hacker News · Оркестрация агентов Метод контроля стабильности LLM-агентов через теорию Ляпунова Разработан новый подход к мониторингу автономных ИИ-агентов, основанный на классической теории устойчивости Ляпунова. Инструмент позволяет отслеживать состояние системы в процессе выполнения задач и выявлять моменты, когда агент начинает совершать циклические ошибки или теряет логическую последовательность действий. Это помогает предотвратить «зацикливание» модели, при котором она бесконечно повторяет неверные шаги или отклоняется от заданного алгоритма решения.

← Все материалы