Исследователи представили EnterpriseClawBench — специализированный бенчмарк для оценки эффективности ИИ-агентов в реальных рабочих условиях. В отличие от синтетических тестов, этот набор данных сформирован на основе анализа реальных сессий взаимодействия сотрудников с корпоративными системами. В базу вошли 852 воспроизводимые задачи, которые охватывают типичные офисные сценарии: работу с разнородными файлами, вызов внешних инструментов и создание бизнес-артефактов.

Основная сложность при создании бенчмарка заключалась в извлечении данных из закрытых корпоративных сред. Авторы разработали методологию, позволяющую восстанавливать контекст сессий, сохраняя при этом конфиденциальность и логическую целостность рабочих процессов. Каждая задача в EnterpriseClawBench включает в себя не только исходный запрос, но и необходимые для его выполнения инструменты, а также критерии оценки результата, что позволяет объективно измерять качество работы агента в условиях, приближенных к реальной офисной деятельности.

Разработка направлена на преодоление разрыва между лабораторными тестами и практическим применением ИИ в бизнесе. Стандарт позволяет оценить, насколько успешно модель справляется с многошаговыми процессами, требующими обращения к корпоративной документации и интеграции с прикладным ПО. Использование EnterpriseClawBench дает возможность разработчикам выявлять слабые места в агентных системах, которые проявляются именно при выполнении сложных, неструктурированных бизнес-задач.