arXiv · 30.06.2026 ·Безопасность и алайнмент

Новый метод MADreMIA усиливает обнаружение утечек данных в LLM

Исследователи представили метод MADreMIA, повышающий эффективность атак на проверку принадлежности данных (MIA) к обучающей выборке моделей. В отличие от стандартных одношаговых проверок, новый подход использует цепочечную регенерацию, что позволяет значительно усилить слабые сигналы запоминания и точнее идентифицировать защищенный контент, используемый при обучении генеративных нейросетей.

Проблема запоминания обучающих данных остается критической для обеспечения конфиденциальности и соблюдения авторских прав. Традиционные методы часто показывают низкую чувствительность, особенно при работе с различными модальностями. Авторы вдохновлялись концепцией Model Autophagy Disorder (MAD), которая описывает деградацию моделей при циклическом обучении на собственных данных, и адаптировали этот механизм для аудита безопасности.

Метод является модель-агностическим, что позволяет применять его к широкому спектру архитектур без необходимости доступа к весам или специфическим внутренним параметрам. Использование итеративной регенерации позволяет выявить даже те фрагменты данных, которые модель «запомнила» неявно, что делает инструмент эффективным для аудита моделей на предмет соблюдения прав интеллектуальной собственности.

Ключевые факты

Метод MADreMIA основан на принципе цепочечной регенерации (chained regeneration) для усиления сигналов принадлежности данных.
Технология позволяет проводить аудит конфиденциальности и проверку авторских прав без необходимости глубокой интеграции в архитектуру модели.
Подход значительно повышает чувствительность атак типа Membership Inference (MIA) и Dataset Inference (DI) по сравнению с одношаговыми методами.
Разработка направлена на решение проблемы неконтролируемого запоминания обучающих выборок в современных генеративных моделях.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Безопасность и алайнмент Inoculation Adapters: новый метод предотвращения нежелательного поведения LLM Исследователи представили метод Inoculation Adapters (IA) — технику дообучения через LoRA, направленную на борьбу с эмерджентным нежелательным поведением моделей. Метод позволяет избирательно подавлять опасные способности ИИ, укрепляя «иммунитет» модели к нежелательным чертам еще на этапе обучения, что снижает риск появления скрытых бэкдоров и непредсказуемых реакций при масштабировании систем. arXiv · Машинное обучение Итеративная самофильтрация данных для обучения мультимодальных моделей Качество обучающих выборок остается критическим фактором при создании эффективных мультимодальных нейросетей. В условиях работы с массивами данных гигантского объема ручная проверка становится невозможной, что приводит к накоплению значительного количества «шумных» и нерелевантных примеров. Традиционные методы очистки данных, основанные на эвристиках или использовании сторонних предобученных моделей, часто оказываются недостаточно гибкими или требуют больших вычислительных затрат. arXiv · Безопасность и алайнмент Динамический анализ жизненного цикла для защиты ML-моделей Исследователи представили новый подход к обеспечению безопасности машинного обучения, направленный на выявление вредоносного кода, скрытого внутри весов и архитектур предобученных моделей. Традиционные методы защиты, основанные на статическом анализе форматов файлов и поиске известных сигнатур атак, часто оказываются неэффективными против современных угроз, способных обходить стандартные фильтры. arXiv · Машинное обучение Метод MAST для точечного удаления нежелательных навыков рассуждения в LLM Исследователи представили метод MAST (Mechanism-Aligned Selective Targeting), предназначенный для избирательного удаления специфических паттернов рассуждения, привитых моделям через обучение с подкреплением (RLVR). Традиционные подходы к «забыванию» (unlearning) часто приводят к деградации общих способностей модели из-за полнопараметрических обновлений. Новый метод позволяет изолировать и корректировать только те веса, которые отвечают за конкретные логические цепочки, минимизируя побочный ущерб для базовых знаний модели. The Decoder · Безопасность и алайнмент Новый метод обучения ИИ через внедрение полезных поведенческих черт Исследователи OpenAI представили подход к обучению моделей, основанный на закреплении конкретных поведенческих паттернов, таких как правдивость и готовность к исправлению ошибок. Вместо использования конституционных ограничений, как это делает Anthropic, авторы применяют метод обучения с подкреплением на небольших наборах данных, содержащих примеры желаемого поведения. Такой подход позволяет модели переносить усвоенные принципы на различные предметные области, делая систему более устойчивой к попыткам манипуляции. arXiv · Безопасность и алайнмент Метод защиты LLM от отравления данных при дообучении Исследователи представили метод «Detect, Unlearn, Restore» для защиты моделей суммаризации текста от атак типа data poisoning. Техника позволяет выявлять вредоносные примеры в обучающей выборке, удалять их влияние на веса модели и восстанавливать исходную производительность системы. Это критически важно для защиты специализированных LLM, которые подвержены манипуляциям через небольшие наборы данных при дообучении. arXiv · Машинное обучение Повышение устойчивости диффузионных моделей к зашумленным данным Исследователи предложили новый метод обучения диффузионных моделей, который делает их более устойчивыми к загрязненным обучающим выборкам. Традиционный подход, основанный на минимизации среднеквадратичной ошибки (MSE), часто оказывается чувствительным к выбросам и некачественным данным, что снижает итоговое качество генерации контента. Microsoft Research · Исследования и наука ИИ-метод для расшифровки работы мозга через генеративное причинно-следственное тестирование Исследователи Microsoft представили метод «генеративного причинно-следственного тестирования» (generative causal testing), позволяющий интерпретировать работу нейросетей-«черных ящиков» применительно к активности мозга. Технология переводит сложные паттерны активации нейронов в проверяемые гипотезы, которые затем верифицируются с помощью сканирования мозга, что позволяет точно определить, на какие лингвистические стимулы реагируют конкретные области коры головного мозга. arXiv · Исследования и наука Исследование устойчивости нейросетей к случайным возмущениям входных данных Исследователи представили новый подход к оценке устойчивости нейронных сетей при воздействии случайного шума на входные данные. Авторы проанализировали взаимосвязь между точностью модели, выраженной через среднеквадратичную ошибку (MSE), и её стабильностью. Разработанная метрика позволяет с высокой вероятностью определять верхнюю границу ошибки нейросети, что критически важно для повышения надежности систем машинного обучения в реальных условиях эксплуатации. arXiv · Машинное обучение Проблема большинства в мультиагентных системах: почему консенсус LLM может быть ошибочным Исследователи выявили критический недостаток в популярных методах мультиагентных дебатов (MAD), где итоговое решение принимается простым большинством голосов. Из-за схожести обучающих данных модели часто совершают идентичные ошибки, что приводит к подавлению верных ответов, предлагаемых меньшинством. Авторы предложили механизм «Minority Sentinel», позволяющий системе распознавать ситуации, когда мнение меньшинства статистически более вероятно является правильным.

← Все материалы