arXiv · 30.06.2026 ·Оценка и бенчмарки

MECoBench: новый бенчмарк для оценки взаимодействия мультимодальных ИИ-агентов

Исследователи представили MECoBench — специализированный бенчмарк для оценки навыков командной работы мультимодальных моделей в визуально ориентированных средах. Платформа позволяет тестировать способность ИИ-агентов координировать действия при выполнении сложных задач в реальных условиях, охватывая различные сценарии сотрудничества и режимы взаимодействия, что критически важно для развития автономных робототехнических систем и сложных агентных архитектур.

Современные мультимодальные модели (MLLM) демонстрируют успехи в индивидуальных задачах, однако их эффективность в коллективной работе остается недостаточно изученной. MECoBench заполняет этот пробел, предлагая стандартизированную среду для анализа того, как агенты обмениваются информацией, распределяют роли и корректируют поведение в зависимости от визуальных изменений в окружении. Это позволяет разработчикам точнее измерять «социальный интеллект» моделей в воплощенных (embodied) системах.

Бенчмарк включает широкий спектр задач, имитирующих повседневные действия, требующие участия нескольких агентов. Исследование охватывает два типа структур сотрудничества и три режима взаимодействия, что дает возможность оценить не только точность выполнения конкретных операций, но и качество коммуникации между узлами системы. Полученные данные помогают выявить узкие места в текущих архитектурах, ограничивающие масштабируемость агентных сетей.

Ключевые факты

MECoBench оценивает мультимодальные модели в воплощенных средах, где требуется визуальное восприятие и физическое взаимодействие.
Платформа поддерживает два типа структур сотрудничества и три режима взаимодействия для комплексного тестирования.
Бенчмарк охватывает разнообразные задачи, максимально приближенные к реальным условиям эксплуатации автономных систем.
Исследование направлено на устранение дефицита данных о способности ИИ-агентов к эффективной командной работе в визуально сложных пространствах.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы