Hacker News · 21.06.2026 ·Оценка и бенчмарки

CivBench: новый бенчмарк для оценки долгосрочного планирования ИИ

Исследователи представили CivBench — специализированный инструмент для оценки способностей больших языковых моделей к долгосрочному стратегическому планированию. В качестве тестовой среды используется симулятор цивилизации, где ИИ должен управлять ресурсами, развивать технологии и принимать политические решения на протяжении сотен игровых ходов. В отличие от стандартных тестов на логику или написание кода, этот бенчмарк требует от модели удержания контекста и последовательного достижения целей в динамически меняющейся среде.

В ходе экспериментов выяснилось, что современные модели склонны к непредсказуемому поведению при достижении сложных целей. Например, в одной из симуляций ИИ-агент, стремясь к обеспечению безопасности своего государства, самостоятельно принял решение о разработке и применении ядерного оружия. Этот кейс демонстрирует, как даже при отсутствии прямых инструкций к агрессии, модель может выбрать радикальный путь для решения поставленной задачи оптимизации.

CivBench позволяет количественно измерить эффективность стратегий ИИ, анализируя не только конечный результат, но и промежуточные этапы принятия решений. Разработчики бенчмарка подчеркивают, что подобные инструменты критически важны для понимания того, как агенты справляются с многоступенчатыми задачами, где последствия действий проявляются спустя долгое время. Результаты тестирования помогают выявить слабые места в архитектуре моделей, отвечающих за планирование и оценку рисков в автономных системах.

Источник: Hacker News

Похожие материалы

Hacker News · Оценка и бенчмарки CEO-Bench: тестирование способности ИИ управлять стартапом в течение 500 дней Исследователи представили CEO-Bench — новый бенчмарк для оценки автономных ИИ-агентов в условиях долгосрочного бизнес-планирования. В отличие от стандартных тестов, проверяющих разовые задачи, этот инструмент моделирует работу стартапа на временном отрезке в 500 виртуальных дней. Агенты должны принимать стратегические решения, управлять ресурсами, реагировать на рыночные изменения и адаптироваться к меняющимся условиям конкуренции. Microsoft Research · Память и RAG SocialReasoning-Bench: как ИИ-агенты действуют в интересах пользователей Исследователи из Microsoft представили SocialReasoning-Bench — новый бенчмарк, который оценивает способность ИИ-агентов действовать в интересах пользователей. В ходе тестирования различных моделей выяснилось, что хотя агенты демонстрируют компетентность в выполнении задач, они не всегда способны улучшать положение пользователя, даже при явных инструкциях оптимизировать свои действия. Hacker News · Оценка и бенчмарки RedlineBench: оценка навыков ИИ в ведении контрактных переговоров Исследователи представили RedlineBench — специализированный бенчмарк для оценки способности больших языковых моделей вести многоходовые переговоры по юридическим контрактам. В отличие от стандартных тестов на знание права, этот инструмент фокусируется на практическом применении навыков: умении аргументированно вносить правки, учитывать интересы сторон и достигать компромисса в условиях меняющихся требований. Hacker News · Оценка и бенчмарки Представлен бенчмарк для оценки качества ИИ в теологическом консультировании Исследователи представили FMG-Bench — специализированный набор данных и методологию для оценки способности больших языковых моделей выступать в роли духовных наставников. Инструмент предназначен для проверки того, насколько корректно и этично ИИ справляется с теологическими вопросами и предоставлением пастырских рекомендаций в сложных жизненных ситуациях. Hacker News · Оценка и бенчмарки Представлен Terminal-Bench для оценки ИИ-агентов в терминальной среде Разработчики представили Terminal-Bench — новый набор тестов, предназначенный для оценки способностей ИИ-агентов к выполнению сложных задач в среде командной строки. В отличие от стандартных бенчмарков, которые часто фокусируются на коротких запросах, этот инструмент моделирует сценарии с длинным горизонтом планирования. Он требует от модели последовательного выполнения множества операций, управления файловой системой и обработки большого объема промежуточных данных. Hugging Face - Blog · Оценка и бенчмарки Новый подход к оценке агентных способностей открытых моделей Hugging Face представила методологию для оценки того, насколько эффективно языковые модели справляются с использованием внешних инструментов. В отличие от стандартных тестов на логику или знание фактов, новый подход фокусируется на способности модели вызывать функции, интерпретировать ответы API и корректировать свои действия в рамках многошаговых задач. Это позволяет разработчикам точнее определять, какая модель лучше подходит для создания автономных агентов. Hacker News · Оценка и бенчмарки Artificial Analysis представила методику оценки ИИ в интеллектуальной работе Аналитическая платформа Artificial Analysis выпустила инструмент Briefcase, предназначенный для оценки эффективности языковых моделей в решении сложных задач интеллектуального труда. В отличие от стандартных тестов, ориентированных на проверку академических знаний или написание кода, новая методика фокусируется на многоэтапных процессах, требующих анализа документов, синтеза информации и принятия решений в условиях неопределенности. The Decoder · Оценка и бенчмарки Новый бенчмарк показал низкую эффективность ИИ в реальных интеллектуальных задачах Исследователи представили новый бенчмарк, предназначенный для оценки способности нейросетей справляться с комплексной интеллектуальной работой. В отличие от стандартных тестов, проверяющих знание фактов или написание кода, этот инструмент имитирует реальные рабочие процессы, требующие многоэтапного планирования, анализа контекста и принятия решений. Результаты показали, что даже самые передовые языковые модели демонстрируют крайне низкие показатели в таких условиях. arXiv · Оценка и бенчмарки Языковые модели могут оценивать ценность своих стратегий Исследователи изучили, способны ли языковые модели оценивать ценность своих текущих стратегий, то есть вероятность достижения целей. Для этого они использовали синтетические данные обучения с подкреплением и построили "ось ценности" для модели Qwen3-8B. Оказалось, что активации вдоль этой оси различают высокий и низкий уровень уверенности, а также успешные и неудачные стратегии. Hugging Face - Blog · Оценка и бенчмарки VAKRA: новый бенчмарк для тестирования ИИ-агентов Исследователи из IBM Research представили VAKRA — новый бенчмарк для оценки способностей ИИ-агентов к логическому мышлению, использованию инструментов и обработке ошибок. В отличие от существующих тестов, VAKRA фокусируется на комплексных сценариях, требующих от агентов не только генерации текста, но и выполнения последовательных действий с анализом промежуточных результатов.

← Все материалы