Разработчики представили Sors — прокси-сервер на Rust, который переупорядочивает запросы к моделям, чтобы максимизировать использование префиксного кэша vLLM. Это позволяет ускорить обработку запросов и снизить нагрузку на вычислительные ресурсы.
Sors работает как промежуточный слой между клиентом и моделью, анализируя входящие запросы и оптимизируя их порядок для более эффективного использования кэша. Это особенно полезно в сценариях с высокой нагрузкой, где скорость обработки запросов критически важна.
Проект доступен на GitHub под лицензией Apache 2.0. Разработчики отмечают, что Sors совместим с различными моделями, поддерживаемыми vLLM, и может быть легко интегрирован в существующие инфраструктуры.
Sors может быть полезен для разработчиков, работающих с большими языковыми моделями и стремящихся оптимизировать производительность своих систем. Проект продолжает развиваться, и сообщество может внести свой вклад в его улучшение.