ai

[메모용 | 2015 ICLR] Explaining and harnessing adversarial examples 전반부

Ash_O 2023. 11. 20. 15:24

abstract

ML model (including NN) 은 adversarial example을 오분류함.

⇒ 작지만 의도적으로 worst case perturbation 을 dataset의 example에 적용하여 만들어진 input

그래서, perturbed input 은 model이 high confidence로 오답을 뱉도록 한다.

 

위와 같은 현상을 설명하는데에 있어서 이전의 시도들 : nonlinearity 와 overfitting에 초점을 맞춤

 

introduction

in Intriguing properties of neural networks, ML model은 adversarial example에 취약함. ⇒ ML model 은 data 분포로 부터 뽑힌 올바르게 분류된 example 과 약간만 다른 example 들을 오분류한다.

이 adversarial example들의 원인은 미스테리였고, 추측으로는 deep neural network의 극단적인 비선형성이, 아마도 순수 supervised learning problem의 불충분한 model averaging 과 불충분한 regularization과 결합되었기 때문일거라고 제안된다.

 

In this paper :

1.위 추측(가설)은 불필요하다는 것을 보여준다.

고차원 공간에서의 linear behavior는 adversarial example 를 야기하는데에 충분하다.

즉, 이런 관점은, 우리가 adversarial training을 실용적으로 만드는 adversarial example 를 생성하는 fast method 를 설계할수 있게 한다.

 

2.dropout을 사용하여 제공받는 addtional regularization benefit 을 넘어설 수 있는 adversarial training을 보여준다.

⇒ dropout, pretraining, model averaging 같은 일반적인 regularization 전략은 adversarial example에 대한 model의 취약성(vulnerability) 를 크게 감소시키지 않지만, RBF network와 같은 nonlinear model family들로 바꾸는 것은 취약성을 크게 감소시킬 수 있다.

adversarial example에 대한 취약성은 일반적인 regularization 전략으로 감소시키긴 어렵지만, RBF Network 같은 모델로 바꾸는건 감소시킬 수 있음.

 

3.선형성덕분에 학습하기 쉬운모델을 설계하는것과 adversarial pertubation에 저항하기위해 nonlinear effect를 사용하는 모델을 설계하는 것 사이의 fundamental tension을 제안한다.

⇒ 장기적으로는 더 비선형적인 모델을 성공적으로 학습할 수 있는 더욱 강력한 optimization method들을 설계함으로써 위와 같은 trade-off 에서 빠져나올 수 있다.

 

 

Related Work

Intriguing properties of neural networks은 신경망과 관련 모델의 다양하고 흥미로운 특성을 보여주었다. 이 논문과 가장 관련성이 높은 것은 다음과 같다.

  1. Box-constrained L-BFGS는 adversarial example들을 확실하게 찾을 수 있다.
  2. ImageNet 같은 데이터셋에 대해서 adversarial example들은 사람의 눈으로 차이를 구별할 수 없을 정도로 original example과 매우 가까이 있었다.
  3. 같은 adversarial example은 종종 다른 architecture를 갖는 다양한 분류기에 대해 오분류되거나 training data의 다양한 subset들에 대해 학습된다.
  4. Shallow softmax regression model들은 adversarial example에 취약하다.
  5. adversarial example들을 학습하는 것은 model을 regularize 할수있다. ⇒ 하지만, inner loop에서 비싼 constrained optimization이 필요해서 실용적이진 못하다.

위와 같은 결과들은, 현대 ML 기술 기반의 분류기들이 올바른 output label을 결정하는 true underlying concept들을 학습하지 않는 다는 것을 말한다. 대신, 이런 알고리즘들은 자연적으로 발생하는 데이터에서는 잘 작동하지만 데이터 분포에서 확률이 높지 않은 공간의 지점을 방문하면 fake로 드러나는 potemkin village를 구축했다.

  • potemkin village : 가난한 나라에 외벽, 외관을 제공해서 그곳의 사람들이 더 나은 방향으로 가고 있다는 맹목적 믿음을 주는 건축물

⇒ computer vision 을 예시로, 컴퓨터 비전에서 인기 있는 접근 방식은 유클리드 거리가 지각 거리를 approximate하는 공간으로 CNN feature를 사용하는 것이기 때문에 특히 실망스럽다. 즉, perceptual distance가 정말 매우 작아서 이미지가 네트워크 representation에서 다른 클래스로 할당된다면 이런 유사성은 결함이 된다.

이런 결과들은 linear classifier가 동일한 문제를 가짐에도 불구하고 deep network의 결함으로 특히 해석되어져 왔음.

 

 

The Linear Explanation of Adversarial Examples

linear model들에 대한 adversarial example들의 존재를 설명하는 것으로 시작.

많은 문제들에서, 각각의 input feature의 precision은 한계가 존재한다.

⇒ 예를 들어, digital image에서 픽셀당 8비트 정도 사용하고, 그래서 image는 dynamic range가 1/255 이하인 모든 정보들은 버린다.
(dynamic range : 측정할수 있는 최대 시그널과 최소 시그널의 비)

 

feature들의 precision이 제한되기 때문에, perturbation ${\eta}$의 모든 원소가 feature들의 precision보다 더 작다면, 분류기가 input $x$에 대해 adversarial input $\tilde{x}=x+\eta$ 에 다르게 반응하는 것은 합리적이지 않다.

 

공식적으로, 잘 분류된 class들에 대한 문제에 대해, classifier가 $\lVert\eta\rVert<\epsilon$ 에 따라 $x$ 와 $\tilde{x}$ 에 같은 class를 부여하는 것이 기대된다. ( 여기서 epsilon은 센서나 위리 문제와 관련있는 데이터 저장장치에 의해 충분히 무시될 정도로 작다)

 

weight vector w와 adversarial example 간의 dot product 는 다음과 같다.

⇒ $w^{T}\tilde{x} = w^{T}x+w^{T}\eta$

 

adversarial perturbation 은 activation이 $w^{T}\eta$ 만큼 증가하도록 한다.

논문은 이 증가하는 부분을 max norm constraint 에 따라 $\eta$ 에 대해서 $\eta=sign(w)$ 를 부여함으로써 최대화 할 수 있다고 한다.

⇒만약, w가 n차원이고, 원소들의 평균크기가 m이라면, activation은 $\epsilon m n$ 만큼 증가할 것이다.

 

즉, 입력에 미세한 변경을 많이 가할 수 있어서 출력에 큰 변화를 만들어 낼 수 있다는 이야기로 이어진다.

 

선형 모델은 여러 신호가 존재하더라도 가중치와 가장 일치하는 신호에 독점적으로 주의를 기울이도록 강제된다.

다른 신호가 훨씬 큰 진폭을 가지고 있어도 해당 가중치에 더 일치하는 신호에만 모델이 주의를 기울이게 된다

이는 적대적 예제에 대한 이해를 제시하는 것으로, 이전에는 신경망의 가정되는 높은 비선형성(non-linearity)과 관련된 설명이 주로 나왔었다.

논문은 선형성에 기반한 이 가설이 더 간단하며, 소프트맥스 회귀(softmax regression)와 같은 선형 모델이 적대적 예제에 취약할 수 있는 이유를 설명할 수 있다고 주장하고 있다.