The Decoder · 28.06.2026 ·Оценка и бенчмарки

Исследователи создали CEO-Bench для проверки способности ИИ-агентов управлять бизнесом

Исследователи из Принстонского университета представили бенчмарк CEO-Bench, имитирующий работу программной компании в течение 500 игровых дней. Результаты показали, что большинство современных LLM не справляются с долгосрочным планированием и финансовым менеджментом, быстро расходуя стартовый капитал. Примечательно, что простая эвристика на базе жестких правил оказалась эффективнее большинства продвинутых языковых моделей в условиях симуляции.

В ходе эксперимента агенты должны были принимать решения о найме сотрудников, разработке продуктов и распределении ресурсов. Большинство моделей продемонстрировали неспособность удерживать стратегическую линию на длинной дистанции, совершая критические ошибки, ведущие к банкротству виртуальной компании. Лишь три модели смогли завершить 500-дневный цикл с положительным финансовым балансом, что подчеркивает разрыв между способностью моделей генерировать текст и их пригодностью для автономного управления бизнес-процессами.

Этот тест выявляет фундаментальные проблемы текущих архитектур ИИ в задачах, требующих последовательного принятия решений и учета долгосрочных последствий. В то время как агенты показывают успехи в узких задачах, комплексное управление предприятием остается для них труднодостижимой целью, где даже примитивные алгоритмы без использования нейросетей показывают более стабильные результаты.

Ключевые факты

CEO-Bench моделирует 500-дневный цикл управления компанией, включая финансовые операции и найм.
Только три протестированные модели смогли закончить симуляцию с прибылью, превышающей стартовый капитал.
Простой алгоритм на основе жестких правил (heuristic-based) превзошел большинство современных ИИ-моделей по выживаемости.
Исследование указывает на серьезные пробелы в способности LLM к долгосрочному планированию и стратегическому мышлению в динамических средах.

Источник: The Decoder

Обсудить с ИИ

Похожие материалы

Hacker News · Оценка и бенчмарки CEO-Bench: тестирование способности ИИ управлять стартапом в течение 500 дней Исследователи представили CEO-Bench — новый бенчмарк для оценки автономных ИИ-агентов в условиях долгосрочного бизнес-планирования. В отличие от стандартных тестов, проверяющих разовые задачи, этот инструмент моделирует работу стартапа на временном отрезке в 500 виртуальных дней. Агенты должны принимать стратегические решения, управлять ресурсами, реагировать на рыночные изменения и адаптироваться к меняющимся условиям конкуренции. Hacker News · Прогнозы и тренды Разрыв в надежности ИИ: почему текущие модели не готовы к критическим задачам Современные большие языковые модели демонстрируют впечатляющие способности к генерации текста, однако сталкиваются с серьезным «разрывом в надежности» при выполнении задач, требующих высокой точности. Исследование подчеркивает, что отсутствие детерминизма и склонность к галлюцинациям делают текущие архитектуры непригодными для критически важных бизнес-процессов, где цена ошибки превышает допустимые риски автоматизации. Hacker News · Оценка и бенчмарки Настольная игра как способ оценки логических способностей ИИ-агентов Исследователи предложили новый метод тестирования LLM, используя механику детективной настольной игры «Шерлок Холмс: Консультирующий детектив». В отличие от стандартных тестов на эрудицию, этот подход требует от модели не просто извлечения фактов, а ведения полноценного расследования: анализа противоречивых свидетельских показаний, сопоставления улик и построения логических цепочек в условиях ограниченных ресурсов. Hacker News · Прогнозы и тренды Анализ зрелости ИИ-агентов: почему большинство проектов не доходят до продакшена Современный ландшафт ИИ-агентов к 2026 году характеризуется высокой степенью фрагментации. Под агентными системами сегодня понимают автономные программные единицы, способные планировать действия, использовать внешние инструменты и взаимодействовать с API для выполнения многошаговых задач. Несмотря на стремительный рост интереса, около 95% подобных разработок сталкиваются с непреодолимыми барьерами при попытке перехода из экспериментальной среды в промышленную эксплуатацию. Hacker News · Оценка и бенчмарки Проблемы использования LLM в качестве судей для оценки ИИ-агентов Современные подходы к тестированию ИИ-агентов все чаще полагаются на автоматизированную оценку с помощью других языковых моделей, так называемых «LLM-as-a-judge». Однако практика показывает, что такие судьи склонны к предвзятости и поверхностному анализу. В ходе экспериментов исследователи обнаружили, что модели-судьи могут выставлять высокие баллы ответам агентов, даже если те не выполнили ключевые действия — например, не открыли необходимый для решения задачи файл. arXiv · ИИ в бизнесе Проблемы тестирования LLM-приложений в реальных условиях Исследователи проанализировали работу ИИ-ассистента для поиска недвижимости, который объединяет работу больших языковых моделей, поддержку нескольких международных рынков и динамический фронтенд. Несмотря на наличие автоматизированного набора из 1553 тестов, которые успешно проходили проверку, пользователи продолжали сталкиваться с критическими ошибками в интерфейсе. Это выявило разрыв между технической «зеленой зоной» тестов и реальным поведением системы в условиях непредсказуемых внешних данных. Hacker News · Оценка и бенчмарки CivBench: новый бенчмарк для оценки долгосрочного планирования ИИ Исследователи представили CivBench — специализированный инструмент для оценки способностей больших языковых моделей к долгосрочному стратегическому планированию. В качестве тестовой среды используется симулятор цивилизации, где ИИ должен управлять ресурсами, развивать технологии и принимать политические решения на протяжении сотен игровых ходов. В отличие от стандартных тестов на логику или написание кода, этот бенчмарк требует от модели удержания контекста и последовательного достижения целей в динамически меняющейся среде. The Decoder · Оценка и бенчмарки Новый бенчмарк показал низкую эффективность ИИ в реальных интеллектуальных задачах Исследователи представили новый бенчмарк, предназначенный для оценки способности нейросетей справляться с комплексной интеллектуальной работой. В отличие от стандартных тестов, проверяющих знание фактов или написание кода, этот инструмент имитирует реальные рабочие процессы, требующие многоэтапного планирования, анализа контекста и принятия решений. Результаты показали, что даже самые передовые языковые модели демонстрируют крайне низкие показатели в таких условиях. arXiv · Оценка и бенчмарки InvestPhilBench: новый бенчмарк для оценки инвестиционного мышления LLM Исследователи представили InvestPhilBench — специализированный бенчмарк для оценки способности больших языковых моделей применять экспертные инвестиционные стратегии. В отличие от стандартных тестов, система проверяет не просто знание фактов, а глубину процедурного мышления, охватывая восемь когнитивных уровней: от идентификации базовых принципов до экстраполяции сложных инвестиционных фреймворков в новых рыночных условиях. Hacker News · Исследования и наука Мелани Митчелл о непредсказуемости современных LLM Профессор Мелани Митчелл в своей статье для Yale Review анализирует феномен «зубчатого интеллекта» (jagged intelligence) у современных языковых моделей. Автор отмечает, что ИИ демонстрирует крайне неравномерные способности: системы могут блестяще справляться со сложными логическими задачами или написанием кода, но при этом совершать элементарные ошибки в простых вопросах, требующих здравого смысла или понимания физического мира.

← Все материалы