Исследователи представили AGC-Bench — первый унифицированный бенчмарк для оценки «искусственного общего творчества» (Artificial General Creativity). Инструмент разработан на основе систематического анализа более 3000 научных работ в области ИИ. Он позволяет количественно оценить креативность моделей, отделяя её от общего уровня интеллекта и проверяя способность ИИ генерировать оригинальные идеи в различных доменах.
Вопрос о том, является ли творчество специфическим навыком или проявлением общего интеллекта, долгое время оставался дискуссионным в психологии. С появлением больших языковых моделей эта проблема перешла в плоскость машинного обучения. Отсутствие единых метрик затрудняло сравнение моделей, так как креативность часто оценивалась субъективно или в рамках узких задач, таких как написание текстов или создание изображений.
AGC-Bench предлагает системный подход, который охватывает мультимодальные аспекты творческого процесса. Авторы стремятся создать стандартизированную среду, где можно объективно измерить способность ИИ к дивергентному мышлению, новизне и полезности результатов. Это важный шаг для понимания того, насколько современные архитектуры способны выходить за рамки статистического воспроизведения данных и демонстрировать признаки подлинного творческого поиска.
Ключевые факты
- В основу бенчмарка лег систематический обзор 3 101 научной публикации, посвященной креативности в ИИ.
- AGC-Bench разделяет творческие способности на доменно-специфичные (наука, письмо, визуальное искусство) и общие.
- Методология направлена на решение проблемы психометрической отделимости креативности от общего интеллекта (g-factor) в LLM.
- Бенчмарк предоставляет стандартизированный инструментарий для оценки оригинальности и ценности генераций, что ранее было трудно формализовать.