Исследователи представили метод Embedded Attack, позволяющий внедрять вредоносные инструкции в безобидные наборы данных для дообучения языковых моделей. В отличие от классических атак, этот способ скрывает опасные паттерны внутри стандартных задач, что делает их невидимыми для существующих систем фильтрации и защитных механизмов, которые анализируют примеры на индивидуальном уровне.
Авторы работы продемонстрировали, что современные guardrails не способны эффективно распознавать такие скрытые угрозы, так как они не вызывают срабатывания стандартных детекторов контента. Вредоносный код или инструкции маскируются под обычные QA-пары, что позволяет злоумышленникам обходить контроль безопасности на этапе fine-tuning, внедряя в модель скрытые триггеры или нежелательное поведение.
Для нейтрализации этой угрозы предложен новый подход к проверке обучающих данных, который анализирует структуру и контекст всей выборки целиком, а не каждого примера в отдельности. Это позволяет выявлять аномалии, возникающие при попытке внедрения скрытых инструкций, и предотвращать компрометацию весов модели в процессе обучения.
Ключевые факты
- Метод Embedded Attack позволяет маскировать вредоносные QA-пары внутри benign-данных для дообучения.
- Существующие системы фильтрации контента не способны обнаружить скрытые угрозы на уровне отдельных примеров.
- Предложенный метод защиты фокусируется на анализе целостности всей обучающей выборки для выявления скрытых паттернов.
- Исследование подчеркивает уязвимость процесса fine-tuning к атакам, использующим методы стеганографии в данных.