Hacker News · 19.06.2026 ·Оценка и бенчмарки

Представлен Terminal-Bench для оценки ИИ-агентов в терминальной среде

Разработчики представили Terminal-Bench — новый набор тестов, предназначенный для оценки способностей ИИ-агентов к выполнению сложных задач в среде командной строки. В отличие от стандартных бенчмарков, которые часто фокусируются на коротких запросах, этот инструмент моделирует сценарии с длинным горизонтом планирования. Он требует от модели последовательного выполнения множества операций, управления файловой системой и обработки большого объема промежуточных данных.

Ключевая особенность Terminal-Bench заключается в акценте на «token-intensive» задачи. Это означает, что агент должен не просто выдать правильный ответ, а поддерживать контекст на протяжении длительной сессии, эффективно используя системные ресурсы и корректируя свои действия на основе вывода терминала. Такой подход позволяет точнее измерить реальную автономность моделей при решении прикладных задач разработки и системного администрирования.

Тестирование в рамках проекта помогает выявить узкие места в текущих архитектурах LLM, особенно в вопросах долгосрочной памяти и способности к исправлению ошибок в многошаговых процессах. Результаты бенчмарка предоставляют разработчикам метрики, которые показывают, как именно модели справляются с реальными рабочими процессами, требующими глубокой интеграции с операционной системой и последовательного принятия решений.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

arXiv · Оценка и бенчмарки E-Bench: новый стандарт для оценки многошаговых ИИ-агентов Исследователи представили E-Bench — специализированный бенчмарк для оценки способности LLM-агентов выполнять сложные многошаговые задачи в реальных продуктовых сценариях. В отличие от существующих тестов, сфокусированных на одиночных вызовах API, E-Bench проверяет навыки агентов по сбору скрытой информации, планированию последовательности действий и корректному изменению состояния системы в динамических средах. MarkTechPost · Оценка и бенчмарки EdgeBench: новый стандарт для оценки производительности ИИ-агентов EdgeBench представляет собой комплексный бенчмарк для тестирования продвинутых ИИ-агентов в реальных условиях эксплуатации. Инструмент позволяет оценивать эффективность моделей в различных категориях задач, учитывая ограничения по времени выполнения и специфику среды исполнения. Методология включает детальный анализ таксономии задач, логику судейства и метрики масштабируемости, что критически важно для объективного сравнения агентных систем. Hacker News · Оценка и бенчмарки VetoBench: новый стандарт оценки памяти ИИ-агентов VetoBench — это специализированный бенчмарк, предназначенный для оценки того, как ИИ-агенты управляют памятью и контекстом в долгосрочных задачах. В отличие от традиционных RAG-систем, которые фокусируются на поиске информации, VetoBench тестирует способность модели удерживать, обновлять и использовать накопленные данные для принятия последовательных решений в динамических сценариях, выходя за рамки простого извлечения документов из базы. Hacker News · Оценка и бенчмарки Human-bench: новый стандарт оценки «человекоподобных» ИИ-агентов Проект Human-bench представил специализированный бенчмарк для оценки ИИ-агентов, имитирующих поведение человека в цифровой среде. В отличие от классических тестов на логику или программирование, этот инструмент фокусируется на способности моделей выполнять задачи в интерфейсах, требующих многошагового взаимодействия, навигации по сайтам и принятия решений в условиях, максимально приближенных к реальной работе пользователя. Hacker News · Оценка и бенчмарки Запуск Frontier-Bench: новый стандарт оценки способностей ИИ-моделей Представлен Frontier-Bench — комплексный бенчмарк для оценки возможностей передовых ИИ-моделей в решении сложных задач. Инструмент фокусируется на проверке навыков, выходящих за рамки стандартных тестов, включая многошаговое рассуждение, работу с кодом и глубокий анализ данных. Разработчики стремятся создать объективную метрику для измерения прогресса моделей в условиях их стремительного усложнения и роста автономности. Hacker News · Оценка и бенчмарки Tencent представила WorkBuddy Bench для оценки ИИ-агентов в программировании Tencent запустила WorkBuddy Bench — специализированный бенчмарк для оценки способностей ИИ-агентов в задачах разработки программного обеспечения. Платформа фокусируется на проверке навыков написания кода, отладки и выполнения комплексных инженерных задач в реальных репозиториях. Инструмент призван стандартизировать тестирование агентных систем, которые способны автономно взаимодействовать с файловой системой и средой разработки для решения задач программирования. Hacker News · Оценка и бенчмарки ReactBench: новый стандарт для оценки ИИ-агентов в разработке на React Представлен ReactBench — специализированный бенчмарк для тестирования возможностей ИИ-агентов в реальных задачах веб-разработки на React. В отличие от стандартных тестов на алгоритмические задачи, этот инструмент фокусируется на работе с комплексными кодовыми базами, требующими понимания структуры компонентов, управления состоянием и взаимодействия с API в условиях, приближенных к реальным проектам. Hacker News · Оценка и бенчмарки OpenBench: новый стандарт для оценки ИИ-агентов в программировании OpenBench представляет собой специализированный бенчмарк, предназначенный для объективного сравнения производительности различных агентных систем в задачах написания кода. Инструмент позволяет оценивать эффективность агентских фреймворков в реальных сценариях разработки, предоставляя разработчикам стандартизированную метрику для анализа того, насколько качественно агенты справляются с комплексными задачами программирования и отладки. arXiv · Оценка и бенчмарки UniClawBench: новый стандарт оценки проактивных ИИ-агентов в реальных задачах Исследователи представили UniClawBench — комплексный бенчмарк для оценки проактивных ИИ-агентов, работающих с реальными инструментами. В отличие от существующих тестов, ограниченных изолированными средами, UniClawBench фокусируется на многошаговых сценариях, требующих от модели самостоятельной инициативы, планирования и взаимодействия с внешними сервисами в динамических условиях, что лучше отражает реальную эффективность агентов в повседневных задачах. Hacker News · Оценка и бенчмарки AWS представила AWS-bench для тестирования ИИ-агентов Компания AWS выпустила AWS-bench — открытый набор инструментов для оценки производительности ИИ-агентов в облачной инфраструктуре. Решение позволяет разработчикам стандартизировать тестирование агентных систем, измеряя их способность выполнять сложные многошаговые задачи, взаимодействовать с внешними API и эффективно использовать облачные ресурсы. Инструментарий ориентирован на повышение надежности и предсказуемости автономных систем в корпоративных средах.

← Все материалы