Снижение стоимости инференса и цен на токены в крупных языковых моделях не приводит к пропорциональному сокращению затрат на ИИ-инфраструктуру. Напротив, компании сталкиваются с ростом общих счетов за облачные вычисления. Этот эффект объясняется парадоксом Джевонса: по мере того как использование ИИ становится дешевле, эффективность его применения растет, что провоцирует кратный рост объемов потребления ресурсов.

Бизнес начинает внедрять более сложные агентные архитектуры, требующие многократных вызовов моделей для одной задачи, увеличивая количество токенов на запрос. Вместо экономии на текущих процессах компании перераспределяют освободившиеся бюджеты на расширение функциональности, внедрение более глубокого анализа данных и запуск новых автоматизированных систем. В результате общая нагрузка на вычислительные мощности и итоговые чеки от провайдеров остаются высокими или продолжают расти.

Текущая динамика показывает, что оптимизация стоимости одного токена является лишь временным фактором. Основным драйвером расходов становится масштаб внедрения и усложнение логики взаимодействия моделей. Для бизнеса это означает необходимость перехода от стратегии простого снижения затрат к управлению эффективностью использования токенов и архитектурной оптимизации агентных цепочек, чтобы избежать неконтролируемого роста операционных расходов при масштабировании ИИ-решений.