arXiv · 24.06.2026 ·Безопасность и алайнмент

Уязвимости конфиденциальности в табличных foundation-моделях

Исследователи выявили критические риски конфиденциальности в табличных foundation-моделях, использующих механизм внимания. Несмотря на обучение на синтетических данных, модели подвержены утечкам чувствительной информации при инференсе. В процессе in-context learning данные, передаваемые в качестве размеченных примеров, могут быть восстановлены через анализ весов внимания, что ставит под угрозу безопасность высокорисковых запросов в корпоративных системах.

Основная проблема заключается в том, что механизм внимания (attention mechanism) сохраняет следы входных данных в своих внутренних представлениях. Когда пользователь предоставляет конфиденциальные записи в качестве контекста для модели, эти данные становятся уязвимыми для атак, направленных на извлечение обучающей выборки или контекстных примеров. Это опровергает распространенное мнение о том, что табличные модели безопасны по умолчанию из-за использования синтетических данных при пре-трейнинге.

Авторы работы предлагают методы защиты, которые позволяют минимизировать утечки при обработке запросов с высокой степенью чувствительности. Исследование подчеркивает необходимость внедрения дополнительных слоев фильтрации и дифференциальной приватности при работе с табличными данными в агентных системах, где контекст часто содержит персональную или финансовую информацию.

Ключевые факты

Механизм внимания в табличных моделях позволяет восстанавливать чувствительные записи, переданные в контексте запроса.
Уязвимость сохраняется даже в моделях, прошедших предварительное обучение на синтетических датасетах.
In-context learning создает вектор атаки, при котором конфиденциальные данные пользователя могут быть извлечены злоумышленником через анализ внимания.
Предложены новые протоколы защиты для высокорисковых запросов, предотвращающие утечку данных через веса модели.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы