Hacker News · 16.06.2026 ·Инференс и железо

Sors: прокси на Rust для оптимизации кэша vLLM

Разработчики представили Sors — прокси-сервер на Rust, который переупорядочивает запросы к моделям, чтобы максимизировать использование префиксного кэша vLLM. Это позволяет ускорить обработку запросов и снизить нагрузку на вычислительные ресурсы.

Sors работает как промежуточный слой между клиентом и моделью, анализируя входящие запросы и оптимизируя их порядок для более эффективного использования кэша. Это особенно полезно в сценариях с высокой нагрузкой, где скорость обработки запросов критически важна.

Проект доступен на GitHub под лицензией Apache 2.0. Разработчики отмечают, что Sors совместим с различными моделями, поддерживаемыми vLLM, и может быть легко интегрирован в существующие инфраструктуры.

Sors может быть полезен для разработчиков, работающих с большими языковыми моделями и стремящихся оптимизировать производительность своих систем. Проект продолжает развиваться, и сообщество может внести свой вклад в его улучшение.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Инференс и железо Tokdiet: прокси для локального запуска LLM с экономией токенов Разработчики представили Tokdiet — прокси-сервер для локального запуска языковых моделей, который сокращает расход токенов на 70% без потери качества. Решение работает как промежуточный слой между пользователем и моделью, оптимизируя запросы и уменьшая объём передаваемых данных. Hacker News · Инфраструктура для агентов Cachet: локальный семантический кэш для LLM-запросов Разработчики представили Cachet — инструмент для семантического кэширования запросов к языковым моделям, написанный на языке Rust. Решение позволяет сократить расходы на API и снизить задержки при работе с LLM за счет переиспользования ответов на похожие по смыслу вопросы. В отличие от стандартного кэширования по точному совпадению текста, система анализирует семантическую близость запросов, что делает её эффективной для динамических диалоговых интерфейсов. Hacker News · Инфраструктура для агентов Sturnus: прокси-маршрутизатор для оптимизации запросов к LLM Sturnus — это прокси-сервер с поддержкой API OpenAI, предназначенный для динамической маршрутизации запросов между различными языковыми моделями. Инструмент позволяет автоматически направлять вызовы к наиболее быстрому или доступному провайдеру в зависимости от текущей нагрузки и времени отклика. Это решение помогает разработчикам снизить задержки при работе с LLM и повысить отказоустойчивость систем, использующих внешние API. Hacker News · Инференс и железо Kortex: движок для инференса LLM с поддержкой out-of-core вычислений на Rust Kortex — это новый движок для выполнения больших языковых моделей, написанный с нуля на языке Rust. Его ключевая особенность заключается в реализации out-of-core инференса, что позволяет запускать модели, размер которых превышает объем доступной видеопамяти (VRAM), эффективно используя оперативную память системы для хранения весов и промежуточных вычислений в процессе генерации. Hacker News · Инфраструктура для агентов LiteLLM переводит ключевые компоненты на Rust Популярный прокси-сервер LiteLLM, используемый для унификации API различных языковых моделей, объявил о миграции критически важных частей своей инфраструктуры на язык программирования Rust. Этот переход направлен на повышение производительности системы, снижение задержек при обработке запросов и оптимизацию потребления ресурсов при высокой нагрузке. Hacker News · Инфраструктура для агентов Turo: прокси-сервер для оптимизации токенов в CLI-агентах Turo — это прокси-сервер, разработанный для существенного сокращения потребления токенов при работе с CLI-агентами. Инструмент анализирует запросы к LLM и динамически применяет стратегии сжатия контекста, позволяя снизить расходы на API без потери качества ответов. Решение ориентировано на разработчиков, активно использующих агентные системы в терминале и стремящихся к оптимизации затрат. Hacker News · Инфраструктура для агентов Open-source прокси-шлюз для оптимизации расходов на LLM API Разработчики представили AI-Gateway — open-source решение, работающее как семантический кэширующий прокси для взаимодействия с API больших языковых моделей. Инструмент предназначен для снижения затрат на инференс и уменьшения задержек при выполнении запросов. Вместо того чтобы каждый раз обращаться к облачной модели, система анализирует смысл входящих запросов и возвращает сохраненные ответы, если аналогичный запрос уже обрабатывался ранее. Hacker News · Инфраструктура для агентов Универсальный прокси для интеграции любых LLM с OpenAI Codex и Claude Code Проект OpenCodex предоставляет прокси-сервер, позволяющий использовать сторонние языковые модели в приложениях, изначально ограниченных поддержкой только OpenAI Codex или Claude Code. Инструмент перехватывает API-запросы, обеспечивая совместимость с широким спектром LLM, что дает разработчикам гибкость в выборе моделей для сред разработки и агентных систем без привязки к конкретным провайдерам. Hacker News · Инференс и железо Axiom: специализированное ядро ОС на Rust для инференса LLM Разработчики представили Axiom — экспериментальное ядро операционной системы, написанное на языке Rust и оптимизированное исключительно для задач инференса больших языковых моделей. Проект направлен на минимизацию накладных расходов традиционных ОС, обеспечивая прямое управление ресурсами для вычислительно интенсивных нейросетевых нагрузок, что позволяет повысить эффективность использования аппаратного обеспечения при запуске моделей в изолированной среде. Hacker News · Инфраструктура для агентов Оптимизация расходов на LLM через кэширование и проксирование Разработчик представил инструмент Qarinah, позволяющий сократить затраты на использование API Claude и других моделей до 90%. Решение базируется на интеллектуальном кэшировании запросов и ответов, что исключает повторную оплату идентичных или семантически близких обращений к LLM, значительно снижая общий счет за инференс в агентных системах.

← Все материалы