Исследователи из MIT и других ведущих университетов предложили новый подход к аудиту публичных оценок ИИ-моделей. В статье, опубликованной на arXiv, они утверждают, что текущие рейтинги ИИ часто воспринимаются как окончательные, но на самом деле они представляют собой выборочные временные ряды, искажённые правилами отчётности, пересмотром бенчмарков и пропусками данных.
Авторы анализируют публичные архивы LiveBench и Open LLM Leaderboard v2, которые служат основными источниками для долгосрочного отслеживания прогресса в ИИ. Они также рассматривают LMArena как стресс-тест для предпочтений и GAIA, tau-bench как ограниченные пилотные проекты для агентных задач. Основная идея заключается в том, что баесовский вывод и аудит решений могут помочь выявить скрытые предвзятости и неточности в оценках.
Для разработчиков ИИ-агентов это важно, потому что прозрачность и достоверность оценок напрямую влияют на выбор моделей и стратегий. Например, если рейтинги искажены, это может привести к неверным выводам о производительности моделей и, как следствие, к неэффективному использованию ресурсов.
Исследование подчёркивает необходимость более строгих методов аудита и анализа данных при оценке ИИ. Это особенно актуально для агентов, которые зависят от точных и надёжных данных для принятия решений. В будущем такие подходы могут стать стандартом для оценки ИИ, что улучшит качество и достоверность публичных рейтингов.