Исследователи представили датасет CATCH-ME (Contextually Annotated multi-Turn Counterspeech), предназначенный для улучшения навыков языковых моделей в противодействии враждебным высказываниям и дезинформации. Проблема текущих систем заключается в том, что при работе в режиме zero-shot модели часто выдают шаблонные, расплывчатые или повторяющиеся ответы, которые неэффективны в реальных диалогах. Новый набор данных сфокусирован на многоходовых контекстных ответах, что позволяет лучше обучать ИИ-агентов вести аргументированную дискуссию.

Датасет объединяет две критические области, которые ранее в NLP-исследованиях рассматривались раздельно: борьбу с hate speech и опровержение недостоверной информации. Авторы подчеркивают, что эти явления часто пересекаются в онлайн-пространстве, поэтому для создания качественных систем модерации необходим комплексный подход. CATCH-ME содержит размеченные примеры диалогов, где ИИ должен не просто распознать токсичность, но и выстроить последовательную линию контраргументации.

Использование этого датасета поможет разработчикам систем модерации и RAG-решений повысить точность генерации ответов. Вместо общих фраз модели смогут опираться на качественные примеры ведения дискуссии, что критически важно для автоматизированных систем безопасности. Работа открывает возможности для создания более адаптивных инструментов, способных эффективно реагировать на сложные социальные вызовы в цифровой среде.