Исследователи представили анализ того, как объем вычислительных мощностей, выделяемых на этапе инференса, напрямую влияет на результаты тестирования передовых языковых моделей. В работе рассматривается зависимость между временем обработки запроса, глубиной рассуждений и итоговой точностью ответов в сложных бенчмарках. Авторы подчеркивают, что текущие методы оценки часто не учитывают динамическое масштабирование ресурсов, что приводит к искажению реальных возможностей систем при их развертывании в продакшене.
Ключевой вывод исследования заключается в том, что производительность модели не является статичной характеристикой. При увеличении вычислительного бюджета на генерацию одного токена или цепочки рассуждений (Chain-of-Thought) модели демонстрируют значительный прирост в решении логических и математических задач. Это ставит под сомнение адекватность стандартных тестов, где время на обдумывание ответа жестко ограничено или не учитывается вовсе. Ученые предлагают внедрить новые метрики, которые оценивают эффективность модели в связке с затраченными на инференс ресурсами.
Данный подход меняет представление о том, как следует сравнивать современные архитектуры. Вместо оценки «чистого» интеллекта модели, авторы предлагают фокусироваться на кривых эффективности, показывающих, какой прирост качества дает каждый дополнительный цикл вычислений. Это исследование дает важный инструментарий для бизнеса при выборе моделей: теперь можно точнее прогнозировать, стоит ли увеличивать бюджет на инференс для достижения необходимого уровня точности в конкретных прикладных задачах.