Исследование на arXiv показывает, что современные оценки ИИ переходят на более сложные задачи, требующие длительных траекторий с использованием инструментов и итеративного решения проблем. Это делает результаты всё более чувствительными к объёму и распределению вычислительных ресурсов во время инференса.

Раньше тесты часто проводились в рамках строгих бюджетных ограничений, что могло занижать итоговые оценки. Авторы статьи подчёркивают, что для объективной оценки моделей необходимо учитывать динамическое распределение вычислительных мощностей.

Ключевой вывод: производительность крупных языковых моделей (LLM) сильно зависит от доступных ресурсов во время тестирования. Это требует пересмотра подходов к оценке и внедрению более гибких методологий, которые учитывают реальные условия работы моделей.

Исследование подчёркивает важность адаптации тестовых сценариев под современные требования, чтобы более точно отражать реальные возможности ИИ-систем.