arXiv · 29.06.2026 ·Оценка и бенчмарки

Новый подход к оценке креативности ИИ через анализ разногласий экспертов

Исследователи представили The Human Creativity Benchmark — методологию оценки генеративных моделей, которая учитывает субъективность творческих задач. В отличие от стандартных бенчмарков, где разногласия экспертов считаются ошибкой измерения, новый подход рассматривает их как ценный сигнал. Это позволяет оценивать ИИ не только по следованию общим стандартам, но и по способности предлагать уникальные, вариативные решения.

Традиционные системы оценки ИИ стремятся к консенсусу, подавляя индивидуальные предпочтения оценщиков. Однако в творческих индустриях — от дизайна до копирайтинга — отсутствие единого мнения является нормой. Авторы работы предлагают разделять оценку на два потока: «конвергенцию», отражающую следование профессиональным стандартам, и «дивергенцию», фиксирующую уникальность и разнообразие творческих стилей.

Такой подход меняет парадигму тестирования моделей, которые всё чаще используются для создания контента. Вместо поиска «единственно верного» ответа система анализирует, насколько модель способна улавливать нюансы вкуса и предлагать решения, которые могут быть оценены по-разному в зависимости от контекста. Это приближает метрики ИИ к реальным процессам оценки качества в креативных профессиях.

Ключевые факты

Методология The Human Creativity Benchmark признает разногласия экспертов легитимным показателем качества, а не шумом.
Система разделяет оценку на два сигнала: конвергенцию (следование лучшим практикам) и дивергенцию (индивидуальный творческий выбор).
Новый подход направлен на устранение предвзятости в сторону усредненных ответов, характерной для текущих моделей оценки.
Исследование подчеркивает, что в творческих доменах субъективность является ключевым компонентом профессиональной экспертизы.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы