arXiv · 18.06.2026 ·Машинное обучение

Новый датасет CATCH-ME для борьбы с ненавистью и дезинформацией в ИИ

Исследователи представили датасет CATCH-ME (Contextually Annotated multi-Turn Counterspeech), предназначенный для улучшения навыков языковых моделей в противодействии враждебным высказываниям и дезинформации. Проблема текущих систем заключается в том, что при работе в режиме zero-shot модели часто выдают шаблонные, расплывчатые или повторяющиеся ответы, которые неэффективны в реальных диалогах. Новый набор данных сфокусирован на многоходовых контекстных ответах, что позволяет лучше обучать ИИ-агентов вести аргументированную дискуссию.

Датасет объединяет две критические области, которые ранее в NLP-исследованиях рассматривались раздельно: борьбу с hate speech и опровержение недостоверной информации. Авторы подчеркивают, что эти явления часто пересекаются в онлайн-пространстве, поэтому для создания качественных систем модерации необходим комплексный подход. CATCH-ME содержит размеченные примеры диалогов, где ИИ должен не просто распознать токсичность, но и выстроить последовательную линию контраргументации.

Использование этого датасета поможет разработчикам систем модерации и RAG-решений повысить точность генерации ответов. Вместо общих фраз модели смогут опираться на качественные примеры ведения дискуссии, что критически важно для автоматизированных систем безопасности. Работа открывает возможности для создания более адаптивных инструментов, способных эффективно реагировать на сложные социальные вызовы в цифровой среде.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

The Decoder · Безопасность и алайнмент Новый метод обучения ИИ через внедрение полезных поведенческих черт Исследователи OpenAI представили подход к обучению моделей, основанный на закреплении конкретных поведенческих паттернов, таких как правдивость и готовность к исправлению ошибок. Вместо использования конституционных ограничений, как это делает Anthropic, авторы применяют метод обучения с подкреплением на небольших наборах данных, содержащих примеры желаемого поведения. Такой подход позволяет модели переносить усвоенные принципы на различные предметные области, делая систему более устойчивой к попыткам манипуляции. Hacker News · Исследования и наука Выпущен датасет Cybersecurity AI (CAI) для обучения моделей в сфере кибербезопасности Исследователи представили Cybersecurity AI (CAI) — специализированный набор данных, предназначенный для обучения и оценки языковых моделей в задачах кибербезопасности. Датасет включает структурированные примеры угроз, уязвимостей и сценариев защиты, что позволяет разработчикам точнее настраивать ИИ для автоматизированного анализа кода, обнаружения аномалий и реагирования на инциденты в реальных инфраструктурах. Hacker News · Оценка и бенчмарки Датасет Forensic Refusal для анализа отказов ИИ-моделей Hugging Face опубликовал датасет Forensic Refusal, предназначенный для глубокого анализа поведения LLM при получении провокационных запросов. Набор данных содержит структурированные примеры отказов моделей, позволяя исследователям изучать механизмы безопасности, границы допустимого контента и причины возникновения ложноположительных срабатываний систем фильтрации, что критически важно для настройки алайнмента современных языковых моделей. arXiv · Исследования и наука Новый датасет DyadEE для анализа эмоциональной синхронизации в диалогах Исследователи представили модель TRACE и датасет DyadEE, предназначенные для анализа эмоциональной синхронизации (entrainment) в диалоговой речи. Система учитывает временные зависимости и социальный контекст общения, что позволяет ИИ-агентам точнее распознавать аффективную координацию между собеседниками. Это критически важный шаг для создания более естественных и эмпатичных голосовых интерфейсов, способных адаптироваться к эмоциональному состоянию пользователя в реальном времени. arXiv · Машинное обучение Новый датасет для обнаружения кибератак с метками ATT&CK Исследователи представили новый датасет для обнаружения многоэтапных кибератак, который включает логи систем, сетей и браузеров. Существующие публичные датасеты, такие как CICIDS и UNSW-NB15, охватывают только сетевую активность, в то время как другие, например LMDG, фокусируются на хост-активности. arXiv · Исследования и наука Агентная система для выявления долгосрочных мошеннических схем Исследователи представили агентную систему для борьбы с мошенничеством в мессенджерах, способную анализировать диалоги длительностью в несколько недель. В отличие от традиционных инструментов, фокусирующихся на отдельных сообщениях, новая архитектура использует память на основе суммаризации. Это позволяет системе выявлять паттерны постепенного установления доверия и попытки кражи данных или средств, характерные для сложных атак социальной инженерии. Hacker News · Инфраструктура для агентов Anti-slopping: метод для борьбы с шаблонными ответами ЛЛМ Исследователи из Thoughtworks представили метод Anti-slopping, направленный на устранение шаблонных и банальных ответов, которые часто генерируют языковые модели. Проблема «сопливых» (sloppy) ответов — это распространённая жалоба пользователей ИИ-агентов, особенно в контексте чат-ботов и виртуальных ассистентов. Anti-slopping предлагает алгоритмический подход для выявления и исправления таких шаблонных фраз, что может значительно повысить качество взаимодействия с ИИ-агентами. arXiv · Машинное обучение BetXplain: датасет для выявления манипулятивной рекламы ставок в соцсетях Исследователи представили BetXplain — специализированный датасет с аннотациями для обучения моделей автоматическому обнаружению манипулятивной рекламы букмекерских контор. Набор данных содержит примеры контента, использующего психологические триггеры для вовлечения пользователей в рискованные ставки, что позволяет ИИ-системам эффективнее модерировать рекламные потоки в социальных сетях и защищать аудиторию от деструктивного влияния. arXiv · Машинное обучение Метод MAST для точечного удаления нежелательных навыков рассуждения в LLM Исследователи представили метод MAST (Mechanism-Aligned Selective Targeting), предназначенный для избирательного удаления специфических паттернов рассуждения, привитых моделям через обучение с подкреплением (RLVR). Традиционные подходы к «забыванию» (unlearning) часто приводят к деградации общих способностей модели из-за полнопараметрических обновлений. Новый метод позволяет изолировать и корректировать только те веса, которые отвечают за конкретные логические цепочки, минимизируя побочный ущерб для базовых знаний модели. Hacker News · Безопасность и алайнмент Новый метод MIT для выявления моделей, обученных на запрещенном контенте Исследователи MIT разработали метод обнаружения моделей, которые обучались на изображениях жестокого обращения с детьми (CASM), не требуя при этом генерации самого контента. Технология анализирует веса нейросети и выявляет специфические паттерны, оставшиеся после обучения на нелегальных датасетах, что позволяет проверять безопасность ИИ-моделей до их публичного развертывания.

← Все материалы