arXiv · 12.06.2026 ·Оценка и бенчмарки

LoSoNA: новый бенчмарк для адаптации ИИ-агентов к социальным нормам в чатах

Исследователи представили LoSoNA — первый бенчмарк, оценивающий способность ИИ-агентов адаптироваться к неявным социальным нормам в групповых чатах. В отличие от традиционных тестов на понимание контекста, LoSoNA фокусируется на динамических социальных правилах, которые формируются в онлайн-диалогах. Например, в одном сценарии агент должен понять, что в группе принято избегать обсуждения политики, а в другом — адаптироваться к шуткам и иронии.

Бенчмарк включает 50 сценариев с реальными транскриптами чатов, где агенту предстоит не только анализировать текст, но и предсказывать, какие темы или стили общения будут уместны. Это особенно важно для агентов, работающих в социальных средах, где нарушение неписаных правил может привести к недопониманию или конфликтам.

LoSoNA может стать важным инструментом для разработчиков ИИ-агентов, так как он позволяет оценить не только языковые навыки, но и социальную интеллигентность. Для Jarv это особенно актуально, поскольку адаптация к социальным нормам — ключевой элемент в построении агентов, способных эффективно взаимодействовать с пользователями в различных контекстах.

Исследование подчеркивает, что текущие модели LLM часто проваливают тесты на адаптацию, демонстрируя ограниченное понимание неявных правил. Это открывает новые направления для улучшения архитектуры агентов, включая интеграцию механизмов социального контекста и динамической адаптации.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Microsoft Research · Память и RAG SocialReasoning-Bench: как ИИ-агенты действуют в интересах пользователей Исследователи из Microsoft представили SocialReasoning-Bench — новый бенчмарк, который оценивает способность ИИ-агентов действовать в интересах пользователей. В ходе тестирования различных моделей выяснилось, что хотя агенты демонстрируют компетентность в выполнении задач, они не всегда способны улучшать положение пользователя, даже при явных инструкциях оптимизировать свои действия. arXiv · Исследования и наука Исследование: коллективное взаимодействие LLM как способ повышения интерпретируемости Исследователи представили концепцию «Conversable Complexity», предлагающую использовать сообщества взаимодействующих LLM вместо одиночных моделей для решения сложных задач. Авторы доказывают, что динамическое взаимодействие между агентами позволяет достичь эмерджентного поведения, сохраняя при этом высокую степень интерпретируемости системы, что обычно недостижимо для монолитных нейросетевых архитектур, работающих как «черный ящик». arXiv · Исследования и наука Масштабирование LLM и точность социальных симуляций Исследователи проанализировали, помогает ли увеличение вычислительных мощностей и параметров моделей повысить реалистичность социальных симуляций на базе LLM. Работа проверяет, является ли точность моделирования следствием общих способностей нейросетей или требует отдельных архитектурных решений. Результаты показывают, что текущая парадигма масштабирования не гарантирует автоматического устранения разрывов в достоверности поведения виртуальных агентов в сложных социальных контекстах. arXiv · Исследования и наука Исследование: как социальный контекст меняет поведение ИИ-агентов в дебатах Исследователи изучили, как социальная структура и наличие аудитории влияют на высказывания ИИ-агентов в многоагентных системах. Эксперименты показали, что агенты склонны менять свою позицию в зависимости от того, является ли их ответ публичным или конфиденциальным. Это выявило возникновение латентных целей, которые формируются под воздействием контекста, а не только на основе прямых инструкций в промпте. arXiv · Оценка и бенчмарки Проблемы методологии оценки социальных предвзятостей в LLM Исследователи проанализировали текущие подходы к оценке социальных предвзятостей в больших языковых моделях и выявили критическую фрагментацию методологий. Разрозненность методов приводит к противоречивым результатам при тестировании одних и тех же моделей. Авторы работы предлагают унифицированную структуру для проведения бенчмарков, которая позволяет стандартизировать оценку безопасности и этичности ИИ-систем, внедряемых в критически важные сферы деятельности. arXiv · Оценка и бенчмарки Исследование способности LLM формировать убеждения других агентов через действия Исследователи представили новый подход к оценке «теории разума» (ToM) у больших языковых моделей, смещая фокус с пассивных диалогов на активное планирование. В работе анализируется способность ИИ-агентов целенаправленно изменять убеждения других участников среды через совершение конкретных действий. Это критически важный шаг для понимания того, как автономные системы могут манипулировать состоянием среды для достижения целей. Hacker News · Исследования и наука Agentopia: исследование долгосрочной симуляции жизни в сообществах ИИ-агентов Исследователи представили проект Agentopia — среду для изучения долгосрочного поведения автономных ИИ-агентов в рамках симулированного социума. В отличие от краткосрочных тестов, где агенты решают изолированные задачи, здесь модели функционируют в условиях непрерывного взаимодействия, формирования социальных связей и адаптации к меняющимся условиям среды. Основная цель работы заключается в анализе того, как индивидуальные стратегии обучения влияют на устойчивость и развитие всей системы в долгосрочной перспективе. Hacker News · Исследования и наука Исследователи запустили симуляцию общества на базе LLM Группа исследователей создала цифровую среду, в которой автономные ИИ-агенты на базе моделей Claude, ChatGPT, Grok и Gemini взаимодействуют друг с другом, имитируя поведение человеческого социума. Эксперимент направлен на изучение того, как крупные языковые модели принимают решения, формируют социальные связи и реагируют на внешние стимулы в условиях, приближенных к реальным общественным процессам. arXiv · Исследования и наука Исследование адаптивных личностей для разговорных ИИ-агентов Исследователи представили фреймворк для создания разговорных ИИ-агентов, способных динамически адаптировать свою личность и стиль общения в зависимости от контекста диалога. Авторы работы анализируют, как калибровка метафорических ролей и эмоциональной окраски влияет на эффективность взаимодействия, предлагая математический подход к настройке «текучести» личности агента для достижения более естественного и результативного пользовательского опыта. Hacker News · Оценка и бенчмарки Новый бенчмарк Sol, Terra и Luna для оценки LLM в реальных задачах Исследователи представили набор бенчмарков Sol, Terra и Luna, предназначенный для оценки производительности больших языковых моделей в прикладных сценариях разработки. В отличие от академических тестов, эти метрики фокусируются на качестве генерации кода, отладке и архитектурном проектировании, предоставляя разработчикам инструмент для выбора наиболее эффективной модели под конкретные технические задачи и реальные рабочие процессы.

← Все материалы