Исследователи представили The Human Creativity Benchmark — методологию оценки генеративных моделей, которая учитывает субъективность творческих задач. В отличие от стандартных бенчмарков, где разногласия экспертов считаются ошибкой измерения, новый подход рассматривает их как ценный сигнал. Это позволяет оценивать ИИ не только по следованию общим стандартам, но и по способности предлагать уникальные, вариативные решения.
Традиционные системы оценки ИИ стремятся к консенсусу, подавляя индивидуальные предпочтения оценщиков. Однако в творческих индустриях — от дизайна до копирайтинга — отсутствие единого мнения является нормой. Авторы работы предлагают разделять оценку на два потока: «конвергенцию», отражающую следование профессиональным стандартам, и «дивергенцию», фиксирующую уникальность и разнообразие творческих стилей.
Такой подход меняет парадигму тестирования моделей, которые всё чаще используются для создания контента. Вместо поиска «единственно верного» ответа система анализирует, насколько модель способна улавливать нюансы вкуса и предлагать решения, которые могут быть оценены по-разному в зависимости от контекста. Это приближает метрики ИИ к реальным процессам оценки качества в креативных профессиях.
Ключевые факты
- Методология The Human Creativity Benchmark признает разногласия экспертов легитимным показателем качества, а не шумом.
- Система разделяет оценку на два сигнала: конвергенцию (следование лучшим практикам) и дивергенцию (индивидуальный творческий выбор).
- Новый подход направлен на устранение предвзятости в сторону усредненных ответов, характерной для текущих моделей оценки.
- Исследование подчеркивает, что в творческих доменах субъективность является ключевым компонентом профессиональной экспертизы.