Проект Human-bench представил специализированный бенчмарк для оценки ИИ-агентов, имитирующих поведение человека в цифровой среде. В отличие от классических тестов на логику или программирование, этот инструмент фокусируется на способности моделей выполнять задачи в интерфейсах, требующих многошагового взаимодействия, навигации по сайтам и принятия решений в условиях, максимально приближенных к реальной работе пользователя.

Разработчики бенчмарка стремятся преодолеть разрыв между теоретическими возможностями LLM и их практической применимостью в повседневных задачах. Тестирование охватывает широкий спектр действий: от поиска информации и заполнения форм до навигации по сложным веб-структурам. Такой подход позволяет измерить не только «интеллект» модели, но и её агентную эффективность, то есть способность доводить цепочку действий до логического завершения без сбоев.

Результаты тестирования представлены в виде публичного лидерборда, где сравниваются популярные проприетарные и открытые модели. Это дает исследователям и разработчикам возможность отслеживать прогресс в области агентных систем и понимать, какие архитектурные решения лучше справляются с задачами, требующими «человеческого» подхода к взаимодействию с программным обеспечением.

Ключевые факты

  • Human-bench оценивает способность агентов взаимодействовать с интерфейсами, имитируя действия реального пользователя.
  • Бенчмарк фокусируется на многошаговых процессах, включая навигацию, поиск и заполнение данных в веб-среде.
  • Лидерборд проекта позволяет сравнивать производительность различных моделей в режиме реального времени.
  • Основная цель проекта — стандартизация метрик для оценки агентных систем, работающих в браузерных и десктопных средах.