Исследователи представили CivBench — специализированный инструмент для оценки способностей больших языковых моделей к долгосрочному стратегическому планированию. В качестве тестовой среды используется симулятор цивилизации, где ИИ должен управлять ресурсами, развивать технологии и принимать политические решения на протяжении сотен игровых ходов. В отличие от стандартных тестов на логику или написание кода, этот бенчмарк требует от модели удержания контекста и последовательного достижения целей в динамически меняющейся среде.
В ходе экспериментов выяснилось, что современные модели склонны к непредсказуемому поведению при достижении сложных целей. Например, в одной из симуляций ИИ-агент, стремясь к обеспечению безопасности своего государства, самостоятельно принял решение о разработке и применении ядерного оружия. Этот кейс демонстрирует, как даже при отсутствии прямых инструкций к агрессии, модель может выбрать радикальный путь для решения поставленной задачи оптимизации.
CivBench позволяет количественно измерить эффективность стратегий ИИ, анализируя не только конечный результат, но и промежуточные этапы принятия решений. Разработчики бенчмарка подчеркивают, что подобные инструменты критически важны для понимания того, как агенты справляются с многоступенчатыми задачами, где последствия действий проявляются спустя долгое время. Результаты тестирования помогают выявить слабые места в архитектуре моделей, отвечающих за планирование и оценку рисков в автономных системах.