Представлен GreyFox — инструмент с открытым исходным кодом, предназначенный для организации прокси-слоя при работе с языковыми моделями. Решение позволяет централизованно управлять запросами к различным API, обеспечивая контроль над расходами через систему квот на токены. Это дает возможность ограничивать потребление ресурсов для отдельных пользователей или проектов в рамках одной инфраструктуры.

Ключевой особенностью системы является встроенный механизм локального кэширования ответов. При повторных запросах с идентичными параметрами прокси отдает данные из собственного хранилища, что позволяет сократить задержки и снизить затраты на обращение к внешним моделям. Такой подход особенно актуален для приложений, где часто используются схожие промпты или повторяющиеся контекстные данные.

Инструмент ориентирован на self-hosted развертывание, что позволяет командам сохранять полный контроль над трафиком и логированием запросов внутри собственного контура безопасности. GreyFox выступает в роли промежуточного звена между клиентскими приложениями и поставщиками ИИ-услуг, упрощая мониторинг нагрузки и оптимизацию затрат на инференс.