Разработчики представили плагин для Claude Code, который внедряет систему интеллектуальной маршрутизации запросов. Инструмент анализирует сложность поступающих задач и автоматически перенаправляет простые операции на специализированные компактные языковые модели (SLM), оставляя ресурсоемкие процессы для более мощных систем.
Такой подход позволяет существенно снизить расходы на инференс и сократить время отклика при выполнении рутинных операций, таких как форматирование кода, поиск по документации или простые логические проверки. Система работает как промежуточный слой, который оценивает контекст задачи до того, как она будет отправлена на обработку в основную модель.
Внедрение подобной архитектуры помогает компаниям масштабировать агентские решения, не увеличивая линейно затраты на API. Использование связки из нескольких моделей разного уровня мощности становится стандартом для построения эффективных агентных систем, где баланс между качеством ответа и стоимостью вычислений является критическим фактором.