Исследователи представили метод MADreMIA, повышающий эффективность атак на проверку принадлежности данных (MIA) к обучающей выборке моделей. В отличие от стандартных одношаговых проверок, новый подход использует цепочечную регенерацию, что позволяет значительно усилить слабые сигналы запоминания и точнее идентифицировать защищенный контент, используемый при обучении генеративных нейросетей.

Проблема запоминания обучающих данных остается критической для обеспечения конфиденциальности и соблюдения авторских прав. Традиционные методы часто показывают низкую чувствительность, особенно при работе с различными модальностями. Авторы вдохновлялись концепцией Model Autophagy Disorder (MAD), которая описывает деградацию моделей при циклическом обучении на собственных данных, и адаптировали этот механизм для аудита безопасности.

Метод является модель-агностическим, что позволяет применять его к широкому спектру архитектур без необходимости доступа к весам или специфическим внутренним параметрам. Использование итеративной регенерации позволяет выявить даже те фрагменты данных, которые модель «запомнила» неявно, что делает инструмент эффективным для аудита моделей на предмет соблюдения прав интеллектуальной собственности.

Ключевые факты

  • Метод MADreMIA основан на принципе цепочечной регенерации (chained regeneration) для усиления сигналов принадлежности данных.
  • Технология позволяет проводить аудит конфиденциальности и проверку авторских прав без необходимости глубокой интеграции в архитектуру модели.
  • Подход значительно повышает чувствительность атак типа Membership Inference (MIA) и Dataset Inference (DI) по сравнению с одношаговыми методами.
  • Разработка направлена на решение проблемы неконтролируемого запоминания обучающих выборок в современных генеративных моделях.