Исследователи обнаружили критическую ошибку «тихой порчи» данных при использовании метода дифференциальной приватности (DP) в процессе LoRA-дообучения LLM. Проблема заключалась в некорректной обработке градиентов, что приводило к деградации весов модели без явных сообщений об ошибках. Это открытие подчеркивает риски при внедрении методов обеспечения приватности в пайплайны обучения нейросетей.
Ошибка возникала из-за особенностей реализации механизма обрезки градиентов (gradient clipping) в библиотеках, предназначенных для DP-обучения. В условиях, когда параметры LoRA обновляются выборочно, стандартные методы агрегации градиентов приводили к их искажению, что делало процесс обучения математически некорректным. В результате модель теряла способность к качественной генерации, сохраняя при этом видимость сходимости функции потерь.
Для решения проблемы потребовалась глубокая отладка процесса прохождения градиентов через слои адаптеров. Авторы анализа отмечают, что подобные «тихие» баги особенно опасны в задачах, где критически важна точность весов, а использование дифференциальной приватности становится обязательным требованием регуляторов или политик безопасности данных.
Ключевые факты
- Ошибка выявлена в процессе применения дифференциальной приватности к низкоранговой адаптации (LoRA).
- Проблема проявлялась как «тихая порча» (silent corruption), при которой метрики обучения выглядели стабильно, но качество модели деградировало.
- Основная причина кроется в несовместимости стандартных алгоритмов обрезки градиентов с архитектурой адаптеров LoRA.
- Исследование подчеркивает необходимость тщательной верификации градиентов при использовании библиотек для приватного машинного обучения.