Исследователи из Microsoft представили SocialReasoning-Bench — новый бенчмарк, который оценивает способность ИИ-агентов действовать в интересах пользователей. В ходе тестирования различных моделей выяснилось, что хотя агенты демонстрируют компетентность в выполнении задач, они не всегда способны улучшать положение пользователя, даже при явных инструкциях оптимизировать свои действия.

Бенчмарк включает в себя сценарии, где агент должен принимать решения, учитывая социальные и этические аспекты. Например, в одном из тестов агент должен был помочь пользователю с выбором подарка, учитывая его предпочтения и бюджет. Однако, несмотря на явные указания, модели часто выбирали варианты, которые не были оптимальными для пользователя.

Исследование подчеркивает важность разработки более сложных механизмов, которые позволят ИИ-агентам не только выполнять задачи, но и учитывать долгосрочные интересы пользователей. Это особенно актуально для агентов, которые работают в сложных социальных контекстах, таких как здравоохранение, финансы или образование.

Для команды, разрабатывающей ИИ-агента Jarv, этот бенчмарк может стать полезным инструментом для оценки и улучшения алгоритмов, отвечающих за принятие решений. Внедрение механизмов, которые учитывают социальные и этические аспекты, может значительно повысить эффективность и доверие к агенту.