Исследователи представили MECoBench — специализированный бенчмарк для оценки навыков командной работы мультимодальных моделей в визуально ориентированных средах. Платформа позволяет тестировать способность ИИ-агентов координировать действия при выполнении сложных задач в реальных условиях, охватывая различные сценарии сотрудничества и режимы взаимодействия, что критически важно для развития автономных робототехнических систем и сложных агентных архитектур.
Современные мультимодальные модели (MLLM) демонстрируют успехи в индивидуальных задачах, однако их эффективность в коллективной работе остается недостаточно изученной. MECoBench заполняет этот пробел, предлагая стандартизированную среду для анализа того, как агенты обмениваются информацией, распределяют роли и корректируют поведение в зависимости от визуальных изменений в окружении. Это позволяет разработчикам точнее измерять «социальный интеллект» моделей в воплощенных (embodied) системах.
Бенчмарк включает широкий спектр задач, имитирующих повседневные действия, требующие участия нескольких агентов. Исследование охватывает два типа структур сотрудничества и три режима взаимодействия, что дает возможность оценить не только точность выполнения конкретных операций, но и качество коммуникации между узлами системы. Полученные данные помогают выявить узкие места в текущих архитектурах, ограничивающие масштабируемость агентных сетей.
Ключевые факты
- MECoBench оценивает мультимодальные модели в воплощенных средах, где требуется визуальное восприятие и физическое взаимодействие.
- Платформа поддерживает два типа структур сотрудничества и три режима взаимодействия для комплексного тестирования.
- Бенчмарк охватывает разнообразные задачи, максимально приближенные к реальным условиям эксплуатации автономных систем.
- Исследование направлено на устранение дефицита данных о способности ИИ-агентов к эффективной командной работе в визуально сложных пространствах.