arXiv · 01.07.2026 ·Оценка и бенчмарки

AGC-Bench: новый стандарт для измерения творческих способностей ИИ

Исследователи представили AGC-Bench — первый унифицированный бенчмарк для оценки «искусственного общего творчества» (Artificial General Creativity). Инструмент разработан на основе систематического анализа более 3000 научных работ в области ИИ. Он позволяет количественно оценить креативность моделей, отделяя её от общего уровня интеллекта и проверяя способность ИИ генерировать оригинальные идеи в различных доменах.

Вопрос о том, является ли творчество специфическим навыком или проявлением общего интеллекта, долгое время оставался дискуссионным в психологии. С появлением больших языковых моделей эта проблема перешла в плоскость машинного обучения. Отсутствие единых метрик затрудняло сравнение моделей, так как креативность часто оценивалась субъективно или в рамках узких задач, таких как написание текстов или создание изображений.

AGC-Bench предлагает системный подход, который охватывает мультимодальные аспекты творческого процесса. Авторы стремятся создать стандартизированную среду, где можно объективно измерить способность ИИ к дивергентному мышлению, новизне и полезности результатов. Это важный шаг для понимания того, насколько современные архитектуры способны выходить за рамки статистического воспроизведения данных и демонстрировать признаки подлинного творческого поиска.

Ключевые факты

В основу бенчмарка лег систематический обзор 3 101 научной публикации, посвященной креативности в ИИ.
AGC-Bench разделяет творческие способности на доменно-специфичные (наука, письмо, визуальное искусство) и общие.
Методология направлена на решение проблемы психометрической отделимости креативности от общего интеллекта (g-factor) в LLM.
Бенчмарк предоставляет стандартизированный инструментарий для оценки оригинальности и ценности генераций, что ранее было трудно формализовать.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы