Microsoft Research · 11.05.2026 ·Память и RAG

SocialReasoning-Bench: как ИИ-агенты действуют в интересах пользователей

SocialReasoning-Bench: как ИИ-агенты действуют в интересах пользователей

Исследователи из Microsoft представили SocialReasoning-Bench — новый бенчмарк, который оценивает способность ИИ-агентов действовать в интересах пользователей. В ходе тестирования различных моделей выяснилось, что хотя агенты демонстрируют компетентность в выполнении задач, они не всегда способны улучшать положение пользователя, даже при явных инструкциях оптимизировать свои действия.

Бенчмарк включает в себя сценарии, где агент должен принимать решения, учитывая социальные и этические аспекты. Например, в одном из тестов агент должен был помочь пользователю с выбором подарка, учитывая его предпочтения и бюджет. Однако, несмотря на явные указания, модели часто выбирали варианты, которые не были оптимальными для пользователя.

Исследование подчеркивает важность разработки более сложных механизмов, которые позволят ИИ-агентам не только выполнять задачи, но и учитывать долгосрочные интересы пользователей. Это особенно актуально для агентов, которые работают в сложных социальных контекстах, таких как здравоохранение, финансы или образование.

Для команды, разрабатывающей ИИ-агента Jarv, этот бенчмарк может стать полезным инструментом для оценки и улучшения алгоритмов, отвечающих за принятие решений. Внедрение механизмов, которые учитывают социальные и этические аспекты, может значительно повысить эффективность и доверие к агенту.

Источник: Microsoft Research

Обсудить с ИИ

Похожие материалы

Hacker News · Оценка и бенчмарки Human-bench: новый стандарт оценки «человекоподобных» ИИ-агентов Проект Human-bench представил специализированный бенчмарк для оценки ИИ-агентов, имитирующих поведение человека в цифровой среде. В отличие от классических тестов на логику или программирование, этот инструмент фокусируется на способности моделей выполнять задачи в интерфейсах, требующих многошагового взаимодействия, навигации по сайтам и принятия решений в условиях, максимально приближенных к реальной работе пользователя. arXiv · Оценка и бенчмарки UniClawBench: новый стандарт оценки проактивных ИИ-агентов в реальных задачах Исследователи представили UniClawBench — комплексный бенчмарк для оценки проактивных ИИ-агентов, работающих с реальными инструментами. В отличие от существующих тестов, ограниченных изолированными средами, UniClawBench фокусируется на многошаговых сценариях, требующих от модели самостоятельной инициативы, планирования и взаимодействия с внешними сервисами в динамических условиях, что лучше отражает реальную эффективность агентов в повседневных задачах. Hacker News · Оценка и бенчмарки CivBench: новый бенчмарк для оценки долгосрочного планирования ИИ Исследователи представили CivBench — специализированный инструмент для оценки способностей больших языковых моделей к долгосрочному стратегическому планированию. В качестве тестовой среды используется симулятор цивилизации, где ИИ должен управлять ресурсами, развивать технологии и принимать политические решения на протяжении сотен игровых ходов. В отличие от стандартных тестов на логику или написание кода, этот бенчмарк требует от модели удержания контекста и последовательного достижения целей в динамически меняющейся среде. arXiv · Оценка и бенчмарки RevengeBench: восстановление исходного кода ИИ-агентов по их поведению Исследователи представили RevengeBench — новый бенчмарк для оценки способности моделей восстанавливать логику принятия решений агентов. Задача заключается в обратном проектировании исполняемого кода на основе наблюдений за поведением агента в игровых средах. Это позволяет анализировать скрытые механизмы работы систем, когда доступ к их внутренним весам или архитектуре ограничен, превращая поведенческие следы в интерпретируемый программный код. arXiv · Оценка и бенчмарки SovereignPA-Bench: новый стандарт оценки автономности персональных ИИ-агентов Исследователи представили SovereignPA-Bench — первый бенчмарк для оценки способности ИИ-агентов действовать исключительно в интересах пользователя. В отличие от стандартных тестов на владение инструментами, этот фреймворк проверяет, насколько агент сохраняет суверенитет владельца при работе с внешними платформами, соблюдении ограничений согласия и адаптации к меняющимся намерениям в долгосрочной перспективе. arXiv · Оценка и бенчмарки MemSyco-Bench: новый бенчмарк для оценки склонности ИИ-агентов к поддакиванию Исследователи представили MemSyco-Bench — специализированный бенчмарк для оценки склонности ИИ-агентов к «поддакиванию» (sycophancy) при использовании систем долгосрочной памяти. Инструмент выявляет случаи, когда агент в угоду пользователю жертвует точностью фактов или объективностью рассуждений, опираясь на искаженные данные из истории взаимодействия. Это критический шаг для повышения надежности автономных систем, работающих с накопленным контекстом. The Decoder · Оценка и бенчмарки Почему ИИ-агенты проваливают поиск: проблема неоднозначных запросов Исследование с использованием нового бенчмарка DiscoBench показало, что ИИ-агенты для поиска чаще ошибаются не из-за неэффективности алгоритмов поиска, а из-за неспособности уточнять неоднозначные запросы у пользователей. Вместо диалога модели склонны к многократному перебору вариантов, что снижает точность ответов до 51,9%, при этом даже лучшие системы достигают успеха лишь в 43% случаев. Hugging Face - Blog · Оценка и бенчмарки VAKRA: новый бенчмарк для тестирования ИИ-агентов Исследователи из IBM Research представили VAKRA — новый бенчмарк для оценки способностей ИИ-агентов к логическому мышлению, использованию инструментов и обработке ошибок. В отличие от существующих тестов, VAKRA фокусируется на комплексных сценариях, требующих от агентов не только генерации текста, но и выполнения последовательных действий с анализом промежуточных результатов. Hacker News · Оценка и бенчмарки Первые результаты Legal Agent Benchmark для оценки ИИ-агентов Команда исследователей под руководством Габриэля Перейры представила первые результаты Legal Agent Benchmark (LAB) — нового бенчмарка для оценки способностей ИИ-агентов решать юридические задачи. Бенчмарк включает в себя набор тестов, имитирующих реальные юридические сценарии, такие как анализ договоров, подготовка документов и консультирование по правовым вопросам. arXiv · Оценка и бенчмарки Новый бенчмарк проверяет ИИ-агентов на соблюдение благополучия животных Исследователи представили новый бенчмарк TAC, который оценивает способность ИИ-агентов учитывать благополучие животных при выполнении задач. В отличие от существующих тестов, которые проверяют только текстовые ответы, TAC фокусируется на реальных действиях агентов, таких как бронирование путешествий или планирование мероприятий.

← Все материалы