Исследователи проанализировали метод Input Diversity (DI), который традиционно используется для повышения эффективности состязательных атак на нейросети. Суть метода заключается в случайном изменении размера и добавлении отступов к входным данным на каждой итерации атаки. Ранее считалось, что такая вариативность неизменно улучшает переносимость атак между различными моделями, однако новое исследование опровергает универсальность этого подхода.
Авторы работы выявили так называемый «эффект ножниц», который зависит от типа используемой суррогатной модели. Если для стандартных моделей увеличение вероятности применения DI действительно повышает успех атаки, то для моделей, прошедших процедуру робастного обучения, результат часто оказывается обратным. В таких случаях активное использование случайного изменения размера может снизить эффективность воздействия, делая модель более устойчивой к попыткам манипуляции.
Полученные данные ставят под сомнение устоявшуюся практику автоматического применения DI при разработке методов защиты и тестировании безопасности нейросетей. Исследование подчеркивает, что выбор стратегии аугментации данных при проведении атак должен учитывать архитектурные особенности и методы обучения целевой системы. Понимание этих закономерностей позволяет более точно настраивать инструменты оценки безопасности ИИ и разрабатывать методы защиты, адаптированные к конкретным типам моделей.