Компания Kilo представила систему Auto Efficient, которая динамически выбирает оптимальную модель для каждого входящего запроса. Решение анализирует сложность задачи и направляет её либо к компактным и быстрым моделям, либо к мощным LLM. Такой подход позволяет компаниям значительно сократить расходы на инференс и снизить задержки, сохраняя при этом высокое качество ответов для сложных сценариев.
Система работает как интеллектуальный прослойка (router) между приложением и API различных поставщиков моделей. Вместо того чтобы использовать одну универсальную модель для всех типов задач, Auto Efficient классифицирует запрос в реальном времени. Простые задачи, такие как классификация текста или извлечение сущностей, перенаправляются на экономичные модели, тогда как для творческого письма или глубокого анализа задействуются флагманские решения.
Основная ценность инструмента заключается в балансировке стоимости и производительности. В условиях, когда цена токенов у топовых моделей остается высокой, автоматическая маршрутизация позволяет оптимизировать бюджет без ручной настройки правил для каждого типа запроса. Система обучается на исторических данных и метриках качества, что позволяет ей адаптироваться к специфике конкретного продукта или бизнес-процесса.
Ключевые факты
- Система автоматически классифицирует запросы по уровню сложности перед отправкой в API.
- Использование маршрутизации позволяет снизить затраты на инференс до 80% в зависимости от профиля нагрузки.
- Инструмент минимизирует задержки (latency) для простых запросов, выбирая модели с меньшим временем отклика.
- Решение поддерживает интеграцию с различными поставщиками моделей через единый интерфейс.
- Алгоритм маршрутизации обучается на основе метрик точности и стоимости для конкретных задач пользователя.