Исследователи выявили критические риски конфиденциальности в табличных foundation-моделях, использующих механизм внимания. Несмотря на обучение на синтетических данных, модели подвержены утечкам чувствительной информации при инференсе. В процессе in-context learning данные, передаваемые в качестве размеченных примеров, могут быть восстановлены через анализ весов внимания, что ставит под угрозу безопасность высокорисковых запросов в корпоративных системах.
Основная проблема заключается в том, что механизм внимания (attention mechanism) сохраняет следы входных данных в своих внутренних представлениях. Когда пользователь предоставляет конфиденциальные записи в качестве контекста для модели, эти данные становятся уязвимыми для атак, направленных на извлечение обучающей выборки или контекстных примеров. Это опровергает распространенное мнение о том, что табличные модели безопасны по умолчанию из-за использования синтетических данных при пре-трейнинге.
Авторы работы предлагают методы защиты, которые позволяют минимизировать утечки при обработке запросов с высокой степенью чувствительности. Исследование подчеркивает необходимость внедрения дополнительных слоев фильтрации и дифференциальной приватности при работе с табличными данными в агентных системах, где контекст часто содержит персональную или финансовую информацию.
Ключевые факты
- Механизм внимания в табличных моделях позволяет восстанавливать чувствительные записи, переданные в контексте запроса.
- Уязвимость сохраняется даже в моделях, прошедших предварительное обучение на синтетических датасетах.
- In-context learning создает вектор атаки, при котором конфиденциальные данные пользователя могут быть извлечены злоумышленником через анализ внимания.
- Предложены новые протоколы защиты для высокорисковых запросов, предотвращающие утечку данных через веса модели.