🌌 Deep Learning/논문 리뷰 [KOR]

[Adversarial Example 논문리뷰] MagNet and "Efficient Defenses Against Adversarial Attacks

복만 2020. 3. 23. 13:17

Carlini, Nicholas, and David Wagner. "Magnet and" efficient defenses against adversarial attacks" are not robust to adversarial examples." arXiv preprint arXiv:1711.08478 (2017).

 

- 2017년 Carlini와 Wagner이 제안한 MagNet과 "Efficient Defenses~"의 반박 논문.

- 1) Meng et al.의 MagNet (2017), 2) Zantedeschi et al.의 "Efficient Defenses Against Adversarial Attacks" (2017), 3) Shen et al.의 APE-GAN (2017) 3가지의 adversarial defense에 대해서 본인들이 제안한 Carlini & Wagner attack을 이용하여 반박함.

 

Introduction

- MagNet : autoencoder을 이용해 image를 reconstruct한 뒤 classifier에 넣는 defense 방법. 원 논문에서 white-box setting에서의 robustness는 언급하지 않았고, grey-box setting에 대해서(공격자가 classifier parameter은 알지만 defense의 parameter은 모르는 상황) robust 하다고 주장함. 

 

- "Efficient Defenses..." : model의 training stage에서 Gaussian augmentation을 이용하고, BReLu activation function을 이용함으로서 robustness를 강화하는 방법. 

 

- APE-GAN(Adversarial Perturbation Elimination GAN) : MagNet과 유사하게 image를 preprocessing하는 방법. Autoencoder 대신 pre-trained GAN을 이용하여 이미지를 재구성한다. 

 

- 3가지의 defense에 대해, 이들이 MNIST와 CIFAR-10 두 가지의 dataset에 효과적인 defense가 아님을 주장.

- MagNet의 경우, grey-box setting에 robust함을 언급하였으므로 transferability를 이용하여 공격하여 99% 이상의 성공률을 보였고, 나머지 두 defense에 대해서는 현존하는 강한 공격 기법을 이용해서 100%의 공격 성공률을 보임.

 

Results

- MagNet : transferable Carlini & Wagner's L2 attack을 이용함. 실제 defense의 대상이 되는 autoencoder과는 구조가 다른 32개의 autoencoder을 학습시켜 이에 대한 adversarial example을 만들고, target classifier에 넣은 결과 99% 이상의 성공률을 보임. 원 논문에서도 Carlini & Wagner attack에 대한 성능을 언급하였으나, 이는 autoencoder을 제외한 classifier에 대한 whitebox attack이었을 뿐, 다른 임의의 autoencoder을 이용한 transferable attack은 고려하지 않았음.

 

- "Efficient Defenses.." : 단순히 Carlini & Wagner의 L2 attack을 적용한 결과 높은 공격 성공률을 보임.

 

- APE-GAN : end-to-end attack에 대해 취약함. Defense의 실패 이유에 관하여, GAN으로 재구성한 image가 original image보다 adversarial image와 더 가깝기 때문이라고 분석합.

 

Conclusion

- 모든 defense 기법 제안에 대하여, 본 논문에서 한 것과 같은 adaptive white-box attack과, transeferable attack에 대한 test를 해야 한다고 주장한다.

- 이는 Carlini & Wagner attack을 제안한 본인들의 이전 논문에서도 언급했던 내용인데, 실제로 다양한 defense들에 대해 적용함으로써 이를 한번 더 증명한 셈이다.

반응형