Исследователи представили LoSoNA — первый бенчмарк, оценивающий способность ИИ-агентов адаптироваться к неявным социальным нормам в групповых чатах. В отличие от традиционных тестов на понимание контекста, LoSoNA фокусируется на динамических социальных правилах, которые формируются в онлайн-диалогах. Например, в одном сценарии агент должен понять, что в группе принято избегать обсуждения политики, а в другом — адаптироваться к шуткам и иронии.

Бенчмарк включает 50 сценариев с реальными транскриптами чатов, где агенту предстоит не только анализировать текст, но и предсказывать, какие темы или стили общения будут уместны. Это особенно важно для агентов, работающих в социальных средах, где нарушение неписаных правил может привести к недопониманию или конфликтам.

LoSoNA может стать важным инструментом для разработчиков ИИ-агентов, так как он позволяет оценить не только языковые навыки, но и социальную интеллигентность. Для Jarv это особенно актуально, поскольку адаптация к социальным нормам — ключевой элемент в построении агентов, способных эффективно взаимодействовать с пользователями в различных контекстах.

Исследование подчеркивает, что текущие модели LLM часто проваливают тесты на адаптацию, демонстрируя ограниченное понимание неявных правил. Это открывает новые направления для улучшения архитектуры агентов, включая интеграцию механизмов социального контекста и динамической адаптации.