Исследователи доказали, что агрегирование оценок LLM через простое усреднение баллов по разным бенчмаркам статистически некорректно и искажает реальные возможности моделей. Авторы работы показывают, что из-за разной сложности задач и неравномерного покрытия навыков итоговый рейтинг не отражает истинную производительность, предлагая вместо этого использовать более строгие методы анализа распределения метрик для оценки прогресса ИИ.

Проблема заключается в том, что бенчмарки часто содержат задачи с разным весом и уровнем «шума», что делает среднее арифметическое крайне чувствительным к выбросам. Когда разработчики объединяют результаты тестов в единый показатель, они фактически смешивают несравнимые данные. Это создает иллюзию значительного прироста качества модели, даже если улучшения произошли лишь в узких, простых категориях, не влияющих на общую надежность системы.

Авторы статьи настаивают на пересмотре подходов к оценке моделей, призывая сообщество отказаться от «гонки за средним баллом». Вместо этого предлагается оценивать модели через профилирование способностей, где учитываются корреляции между задачами и их реальная сложность. Такой подход позволяет точнее предсказывать поведение LLM в прикладных сценариях, где критически важна стабильность ответов, а не абстрактные цифры в лидербордах.

Ключевые факты

  • Усреднение баллов бенчмарков скрывает неравномерность способностей моделей, создавая ложное ощущение универсальности.
  • Использование простого среднего арифметического приводит к тому, что модели с узкой специализацией могут выглядеть лучше более сбалансированных систем.
  • Исследователи предлагают использовать методы многомерного анализа для оценки производительности, чтобы избежать искажений, вызванных «шумными» задачами.
  • Текущая практика оценки моделей в индустрии часто игнорирует статистическую значимость различий между результатами на разных наборах данных.