Исследователи представили CEO-Bench — новый бенчмарк для оценки автономных ИИ-агентов в условиях долгосрочного бизнес-планирования. В отличие от стандартных тестов, проверяющих разовые задачи, этот инструмент моделирует работу стартапа на временном отрезке в 500 виртуальных дней. Агенты должны принимать стратегические решения, управлять ресурсами, реагировать на рыночные изменения и адаптироваться к меняющимся условиям конкуренции.

Система оценивает способность моделей к последовательному принятию решений, где каждый последующий шаг зависит от предыдущих результатов и накопленного опыта. В ходе тестирования ИИ сталкивается с необходимостью балансировать между краткосрочными операционными задачами и долгосрочным ростом компании. Бенчмарк позволяет измерить эффективность агентов в условиях неопределенности, когда отсутствие правильной стратегии приводит к банкротству виртуального бизнеса.

Результаты тестирования показывают, что современные языковые модели демонстрируют разную степень устойчивости при выполнении многоэтапных бизнес-сценариев. Разработчики CEO-Bench подчеркивают, что этот инструмент помогает выявить критические пробелы в способности ИИ к долгосрочному планированию и стратегическому мышлению, которые остаются незаметными при использовании классических методов оценки. Данные бенчмарка предоставляют базу для сравнения автономности различных архитектур в сложных прикладных задачах.