Adversarial Examples and FGSM

Adversarial example は、元の入力に小さな perturbation を加えることで、model の予測を誤らせる入力です。Deep neural network では、人間にはほとんど同じに見える画像でも、予測 class が大きく変わることがあります。

Adversarial example の定義

入力 $x$ 、正解 $y$ 、classifier $f_\theta$ に対して、次を満たす $x' = x + \delta$ を adversarial example と呼びます。

\|\delta\|_p \le \epsilon, \quad f_\theta(x') \ne y

Targeted attack では、特定の target class $t$ を狙います。

\|\delta\|_p \le \epsilon, \quad f_\theta(x') = t

Goodfellow らは、adversarial example の一因として、高次元空間における model の線形的な振る舞いを指摘しました。線形 model $w^\top x$ に perturbation $\delta$ を加えると、logit の変化は次のようになります。

w^\top(x+\delta) - w^\top x = w^\top \delta

$L_\infty$ 制約 $\|\delta\|_\infty \le \epsilon$ の下で、この変化を最大化する perturbation は

\delta = \epsilon\,\mathrm{sign}(w)

です。各 feature の変化は小さくても、dimension が大きいと $w^\top\delta$ は大きくなり得ます。

Fast Gradient Sign Method (FGSM) は、loss を入力 $x$ で一階近似し、 $L_\infty$ ball の中で loss を最大化する方向に一歩動かします。

x_{\mathrm{adv}} = \Pi_{[0,1]^d}\left(x + \epsilon\,\mathrm{sign}(\nabla_x \ell(f_\theta(x),y))\right)

ここで $\Pi$ は valid pixel range への projection です。

Targeted FGSM では、target class $t$ の loss を下げる方向へ動かします。

x_{\mathrm{adv}} = \Pi_{[0,1]^d}\left(x - \epsilon\,\mathrm{sign}(\nabla_x \ell(f_\theta(x),t))\right)

Fast Gradient Method (FGM) は $L_2$ 制約での一歩攻撃です。

x_{\mathrm{adv}} = x + \epsilon \frac{\nabla_x \ell(f_\theta(x),y)}{\|\nabla_x \ell(f_\theta(x),y)\|_2}

FGSM が sign だけを使うのに対して、FGM は gradient direction を $L_2$ 正規化します。

Basic Iterative Method (BIM) または Iterative FGSM は、FGSM を小さい step size $\alpha$ で複数回繰り返します。

x^{k+1}_{\mathrm{adv}} = \Pi_{B_\infty(x,\epsilon)}\left( x^k_{\mathrm{adv}} + \alpha\,\mathrm{sign}(\nabla_x \ell(f_\theta(x^k_{\mathrm{adv}}),y)) \right)

各 step の後に、元画像 $x$ の $L_\infty$ ball に戻す projection を行います。BIM は FGSM より強いですが、random initialization がないため、PGD より探索は弱いことがあります。

Intriguing properties of neural networks: https://arxiv.org/abs/1312.6199
Explaining and Harnessing Adversarial Examples: https://arxiv.org/abs/1412.6572
Adversarial Machine Learning at Scale: https://arxiv.org/abs/1611.01236
Practical Black-Box Attacks against Machine Learning: https://arxiv.org/abs/1602.02697