arXiv · 02.07.2026 ·Оценка и бенчмарки

LACUNA: новый бенчмарк для оценки точности «забывания» данных в LLM

Исследователи представили LACUNA — специализированный тестовый стенд для оценки точности удаления (unlearning) конфиденциальной информации из больших языковых моделей. В отличие от существующих метрик, фокусирующихся на общем качестве генерации, LACUNA оценивает способность моделей локализовать и удалять конкретные параметры, связанные с чувствительными данными, предотвращая их утечку без ущерба для общей производительности системы.

Современные методы «забывания» часто опираются на двухэтапный подход: сначала модель определяет область знаний, подлежащую удалению, а затем корректирует веса. Однако текущие инструменты оценки не позволяют точно измерить, насколько эффективно модель «забыла» конкретный факт, не затрагивая при этом смежные знания. LACUNA предлагает систематизированный подход к проверке того, действительно ли информация была стерта из внутренних представлений модели, а не просто скрыта за счет изменения стиля ответов.

Разработка этого бенчмарка критически важна для обеспечения безопасности при работе с персональными данными (PII). Использование LACUNA позволяет разработчикам количественно измерить точность локализации знаний и эффективность их удаления. Это помогает избежать проблем «неполного забывания», когда модель сохраняет скрытые ассоциации с удаленными данными, что остается одной из главных уязвимостей в современных методах обеспечения приватности ИИ.

Ключевые факты

LACUNA фокусируется на оценке точности локализации параметров, отвечающих за конкретные данные, подлежащие удалению.
Бенчмарк решает проблему «поверхностного забывания», когда модель лишь имитирует отсутствие знаний, сохраняя их в скрытых слоях.
Инструмент позволяет проводить аудит безопасности моделей на предмет наличия персональной информации (PII) после применения процедур unlearning.
Методология направлена на улучшение SOTA-алгоритмов, использующих парадигму «сначала локализовать, потом удалить».

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы