Исследователи представили DialogPII — специализированный мультиязычный набор синтетических диалогов, предназначенный для обучения и тестирования систем автоматического обнаружения персональной информации (PII). Датасет помогает решать проблему конфиденциальности при работе с чувствительными данными в медицине и социальных науках, позволяя эффективно выявлять и удалять личные сведения из транскриптов разговоров перед их дальнейшим использованием или публикацией.

Работа с диалоговыми данными в регулируемых отраслях требует строгого соблюдения приватности, однако существующие инструменты часто допускают ошибки при обработке неструктурированной речи. DialogPII предоставляет стандартизированную базу для оценки качества алгоритмов деидентификации, что критически важно для безопасного обмена данными между исследовательскими группами и внедрения ИИ-решений в корпоративные процессы, где утечка личных данных недопустима.

Использование синтетических данных в данном проекте позволяет избежать рисков, связанных с использованием реальных записей, сохраняя при этом лингвистическое разнообразие и сложность реальных коммуникаций. Это упрощает процесс обучения моделей распознавания сущностей (NER) и классификаторов, которые должны работать в условиях высокой точности и минимального количества ложноположительных срабатываний при поиске имен, адресов или медицинских показателей.

Ключевые факты

  • DialogPII содержит синтетические транскрипты диалогов, имитирующие реальное общение в чувствительных доменах.
  • Датасет ориентирован на развитие систем автоматического удаления персональной информации (PII) для защиты приватности.
  • Решение поддерживает мультиязычность, что расширяет возможности применения инструментов деидентификации в глобальных проектах.
  • Проект направлен на повышение безопасности при обмене данными в сфере здравоохранения и социальных наук.