Исследователи из MIT и Университета Карнеги-Меллона представили новый подход к обучению ИИ-агентов в условиях многозадачности и конфликтов целей. В статье на arXiv они описывают Preference Coordinated Multi-agent Policy Optimization (PCMA) — метод, который позволяет агентам координировать свои действия даже при наличии противоречивых целей и различий в наблюдениях и ролях.
Ключевая проблема, которую решает PCMA, — это конфликты между объективами и агентами. Например, в команде роботов-доставщиков один агент может стремиться к максимальной скорости, а другой — к экономии энергии. PCMA обучает агентов находить компромиссы и действовать согласованно, что критически важно для реальных приложений, где агенты работают в сложных и динамичных средах.
Авторы провели эксперименты в симуляторах, где агенты должны были выполнять задачи с несколькими целями, такими как навигация и избегание препятствий. PCMA показал значительное улучшение по сравнению с базовыми методами, особенно в сценариях с высокой степенью конфликтов. Это делает его перспективным для применения в системах, где требуется сложная координация, например, в логистике, медицине или управлении инфраструктурой.
Для разработчиков ИИ-агентов, таких как Jarv, этот метод может стать важным инструментом для улучшения координации между агентами. PCMA демонстрирует, что даже в условиях противоречивых целей и ограниченных наблюдений можно достичь эффективного взаимодействия, что открывает новые возможности для создания более сложных и адаптивных систем.