Исследователи представили LACUNA — специализированный тестовый стенд для оценки точности удаления (unlearning) конфиденциальной информации из больших языковых моделей. В отличие от существующих метрик, фокусирующихся на общем качестве генерации, LACUNA оценивает способность моделей локализовать и удалять конкретные параметры, связанные с чувствительными данными, предотвращая их утечку без ущерба для общей производительности системы.
Современные методы «забывания» часто опираются на двухэтапный подход: сначала модель определяет область знаний, подлежащую удалению, а затем корректирует веса. Однако текущие инструменты оценки не позволяют точно измерить, насколько эффективно модель «забыла» конкретный факт, не затрагивая при этом смежные знания. LACUNA предлагает систематизированный подход к проверке того, действительно ли информация была стерта из внутренних представлений модели, а не просто скрыта за счет изменения стиля ответов.
Разработка этого бенчмарка критически важна для обеспечения безопасности при работе с персональными данными (PII). Использование LACUNA позволяет разработчикам количественно измерить точность локализации знаний и эффективность их удаления. Это помогает избежать проблем «неполного забывания», когда модель сохраняет скрытые ассоциации с удаленными данными, что остается одной из главных уязвимостей в современных методах обеспечения приватности ИИ.
Ключевые факты
- LACUNA фокусируется на оценке точности локализации параметров, отвечающих за конкретные данные, подлежащие удалению.
- Бенчмарк решает проблему «поверхностного забывания», когда модель лишь имитирует отсутствие знаний, сохраняя их в скрытых слоях.
- Инструмент позволяет проводить аудит безопасности моделей на предмет наличия персональной информации (PII) после применения процедур unlearning.
- Методология направлена на улучшение SOTA-алгоритмов, использующих парадигму «сначала локализовать, потом удалить».