Разработан инструмент для автоматической маршрутизации запросов к языковым моделям на основе их стоимости и производительности. Система анализирует входящий промпт и выбирает наиболее экономически эффективную модель, способную справиться с конкретной задачей. Решение интегрируется с библиотеками PydanticAI и LiteLLM, что позволяет разработчикам внедрять логику выбора провайдера непосредственно в пайплайны обработки данных.
Основная задача инструмента — снижение операционных расходов при работе с API крупных моделей. Вместо использования одной дорогостоящей модели для всех типов задач, система распределяет нагрузку, перенаправляя простые запросы на более дешевые и быстрые модели, а сложные — на флагманские решения. Это позволяет поддерживать баланс между качеством ответов и затратами на токены.
Интеграция с PydanticAI обеспечивает строгую типизацию данных на входе и выходе, что упрощает валидацию ответов от различных моделей в рамках одного рабочего процесса. Использование LiteLLM в качестве прослойки дает возможность переключаться между десятками различных LLM без изменения основного кода приложения. Такой подход к оркестрации инференса становится стандартом для масштабируемых агентных систем, где стоимость каждого вызова напрямую влияет на юнит-экономику продукта.