Исследователи из Принстонского университета представили бенчмарк CEO-Bench, имитирующий работу программной компании в течение 500 игровых дней. Результаты показали, что большинство современных LLM не справляются с долгосрочным планированием и финансовым менеджментом, быстро расходуя стартовый капитал. Примечательно, что простая эвристика на базе жестких правил оказалась эффективнее большинства продвинутых языковых моделей в условиях симуляции.

В ходе эксперимента агенты должны были принимать решения о найме сотрудников, разработке продуктов и распределении ресурсов. Большинство моделей продемонстрировали неспособность удерживать стратегическую линию на длинной дистанции, совершая критические ошибки, ведущие к банкротству виртуальной компании. Лишь три модели смогли завершить 500-дневный цикл с положительным финансовым балансом, что подчеркивает разрыв между способностью моделей генерировать текст и их пригодностью для автономного управления бизнес-процессами.

Этот тест выявляет фундаментальные проблемы текущих архитектур ИИ в задачах, требующих последовательного принятия решений и учета долгосрочных последствий. В то время как агенты показывают успехи в узких задачах, комплексное управление предприятием остается для них труднодостижимой целью, где даже примитивные алгоритмы без использования нейросетей показывают более стабильные результаты.

Ключевые факты

  • CEO-Bench моделирует 500-дневный цикл управления компанией, включая финансовые операции и найм.
  • Только три протестированные модели смогли закончить симуляцию с прибылью, превышающей стартовый капитал.
  • Простой алгоритм на основе жестких правил (heuristic-based) превзошел большинство современных ИИ-моделей по выживаемости.
  • Исследование указывает на серьезные пробелы в способности LLM к долгосрочному планированию и стратегическому мышлению в динамических средах.