Команда Qwen представила AgentWorld — специализированный бенчмарк и среду для оценки агентных возможностей больших языковых моделей. Платформа фокусируется на проверке навыков планирования, использования инструментов и взаимодействия с внешней средой в сложных сценариях. Релиз включает набор данных и фреймворк, позволяющий стандартизировать тестирование ИИ-агентов, работающих в реальных прикладных задачах.

Разработка AgentWorld направлена на решение проблемы нехватки комплексных инструментов для оценки автономных агентов. В отличие от классических бенчмарков, которые проверяют только точность ответов на вопросы, данная среда имитирует многошаговые процессы, где модель должна самостоятельно выбирать инструменты, корректировать действия при ошибках и достигать поставленной цели в динамических условиях.

Система поддерживает интеграцию с различными API и позволяет модели оперировать файловой системой, веб-браузером и другими программными интерфейсами. Это дает возможность разработчикам оценивать не только «интеллект» модели, но и её надежность при выполнении цепочек действий, что критически важно для создания масштабируемых агентных систем и автоматизации бизнес-процессов.

Ключевые факты

  • AgentWorld включает набор из 100+ сложных агентных задач, охватывающих планирование и использование инструментов.
  • Платформа предоставляет стандартизированную среду выполнения, изолирующую действия агента от основной системы.
  • Внедрена метрика успешности выполнения задачи (Task Success Rate), учитывающая промежуточные шаги и финальный результат.
  • Инструментарий поддерживает расширяемую архитектуру для добавления новых типов API и внешних сервисов.
  • Релиз направлен на повышение прозрачности и воспроизводимости результатов при тестировании автономных моделей.