Исследователи представили метод «Detect, Unlearn, Restore» для защиты моделей суммаризации текста от атак типа data poisoning. Техника позволяет выявлять вредоносные примеры в обучающей выборке, удалять их влияние на веса модели и восстанавливать исходную производительность системы. Это критически важно для защиты специализированных LLM, которые подвержены манипуляциям через небольшие наборы данных при дообучении.
Атаки на этапе fine-tuning позволяют злоумышленникам внедрять скрытые триггеры, заставляя модель генерировать предвзятые или вредоносные резюме, сохраняя при этом общую связность текста. Традиционные методы фильтрации часто пропускают такие атаки, так как отравленные данные выглядят как обычные примеры для обучения. Новый подход фокусируется не только на поиске аномалий, но и на процессе «забывания» (unlearning) вредоносных паттернов без потери полезных знаний.
Процесс восстановления включает итеративную проверку весов модели, чтобы убедиться, что после удаления отравленных данных качество суммаризации не снизилось. Это решение повышает устойчивость систем, работающих с пользовательскими данными, где риск инъекций в обучающий пайплайн остается одной из главных угроз безопасности при развертывании специализированных агентных решений.
Ключевые факты
- Метод «Detect, Unlearn, Restore» предназначен для защиты моделей суммаризации от манипуляций при дообучении.
- Атаки data poisoning используют малые объемы данных для внедрения устойчивых ошибок в работу модели.
- Алгоритм позволяет эффективно изолировать вредоносное влияние без необходимости полной переобучения модели с нуля.
- Исследование сфокусировано на сохранении функциональности модели при одновременном устранении последствий внедрения вредоносных данных.