Исследователи провели аудит одного миллиарда токенов, чтобы выявить закономерности потребления ресурсов при работе с большими языковыми моделями. Основной вывод работы заключается в том, что значительная часть вычислительных затрат приходится на избыточные или неэффективные запросы, в то время как полезная информационная нагрузка составляет лишь малую долю от общего объема обработки.

В ходе анализа выяснилось, что до 99% объема данных, проходящих через модели, могут быть оптимизированы без потери качества ответов. Исследование демонстрирует, как именно распределяются затраты на инференс в зависимости от структуры промптов и контекстного окна. Авторы подчеркивают, что текущие методы кэширования и сжатия контекста часто не учитывают реальную плотность информации, что приводит к неоправданному росту счетов за использование API.

Полученные данные позволяют по-новому взглянуть на архитектуру взаимодействия с ИИ-системами. Оптимизация структуры передаваемых данных и внедрение более строгих фильтров на этапе препроцессинга способны существенно снизить операционные расходы бизнеса. Работа предлагает конкретные метрики для оценки эффективности использования токенов, которые могут быть применены при разработке масштабируемых агентных решений и сложных систем автоматизации.