Разработчики представили Terminal-Bench — новый набор тестов, предназначенный для оценки способностей ИИ-агентов к выполнению сложных задач в среде командной строки. В отличие от стандартных бенчмарков, которые часто фокусируются на коротких запросах, этот инструмент моделирует сценарии с длинным горизонтом планирования. Он требует от модели последовательного выполнения множества операций, управления файловой системой и обработки большого объема промежуточных данных.
Ключевая особенность Terminal-Bench заключается в акценте на «token-intensive» задачи. Это означает, что агент должен не просто выдать правильный ответ, а поддерживать контекст на протяжении длительной сессии, эффективно используя системные ресурсы и корректируя свои действия на основе вывода терминала. Такой подход позволяет точнее измерить реальную автономность моделей при решении прикладных задач разработки и системного администрирования.
Тестирование в рамках проекта помогает выявить узкие места в текущих архитектурах LLM, особенно в вопросах долгосрочной памяти и способности к исправлению ошибок в многошаговых процессах. Результаты бенчмарка предоставляют разработчикам метрики, которые показывают, как именно модели справляются с реальными рабочими процессами, требующими глубокой интеграции с операционной системой и последовательного принятия решений.