Skip to main content

Adversarial Examples and FGSM

Adversarial example は、元の入力に小さな perturbation を加えることで、model の予測を誤らせる入力です。Deep neural network では、人間にはほとんど同じに見える画像でも、予測 class が大きく変わることがあります。

Adversarial example の定義

入力 xx、正解 yy、classifier fθf_\theta に対して、次を満たす x=x+δx' = x + \delta を adversarial example と呼びます。

δpϵ,fθ(x)y\|\delta\|_p \le \epsilon, \quad f_\theta(x') \ne y

Targeted attack では、特定の target class tt を狙います。

δpϵ,fθ(x)=t\|\delta\|_p \le \epsilon, \quad f_\theta(x') = t

Linearity 仮説

Goodfellow らは、adversarial example の一因として、高次元空間における model の線形的な振る舞いを指摘しました。線形 model wxw^\top x に perturbation δ\delta を加えると、logit の変化は次のようになります。

w(x+δ)wx=wδw^\top(x+\delta) - w^\top x = w^\top \delta

LL_\infty 制約 δϵ\|\delta\|_\infty \le \epsilon の下で、この変化を最大化する perturbation は

δ=ϵsign(w)\delta = \epsilon\,\mathrm{sign}(w)

です。各 feature の変化は小さくても、dimension が大きいと wδw^\top\delta は大きくなり得ます。

FGSM

Fast Gradient Sign Method (FGSM) は、loss を入力 xx で一階近似し、LL_\infty ball の中で loss を最大化する方向に一歩動かします。

xadv=Π[0,1]d(x+ϵsign(x(fθ(x),y)))x_{\mathrm{adv}} = \Pi_{[0,1]^d}\left(x + \epsilon\,\mathrm{sign}(\nabla_x \ell(f_\theta(x),y))\right)

ここで Π\Pi は valid pixel range への projection です。

Targeted FGSM では、target class tt の loss を下げる方向へ動かします。

xadv=Π[0,1]d(xϵsign(x(fθ(x),t)))x_{\mathrm{adv}} = \Pi_{[0,1]^d}\left(x - \epsilon\,\mathrm{sign}(\nabla_x \ell(f_\theta(x),t))\right)

FGM

Fast Gradient Method (FGM) は L2L_2 制約での一歩攻撃です。

xadv=x+ϵx(fθ(x),y)x(fθ(x),y)2x_{\mathrm{adv}} = x + \epsilon \frac{\nabla_x \ell(f_\theta(x),y)}{\|\nabla_x \ell(f_\theta(x),y)\|_2}

FGSM が sign だけを使うのに対して、FGM は gradient direction を L2L_2 正規化します。

BIM / I-FGSM

Basic Iterative Method (BIM) または Iterative FGSM は、FGSM を小さい step size α\alpha で複数回繰り返します。

xadvk+1=ΠB(x,ϵ)(xadvk+αsign(x(fθ(xadvk),y)))x^{k+1}_{\mathrm{adv}} = \Pi_{B_\infty(x,\epsilon)}\left( x^k_{\mathrm{adv}} + \alpha\,\mathrm{sign}(\nabla_x \ell(f_\theta(x^k_{\mathrm{adv}}),y)) \right)

各 step の後に、元画像 xxLL_\infty ball に戻す projection を行います。BIM は FGSM より強いですが、random initialization がないため、PGD より探索は弱いことがあります。

FGSM の限界

  • 一歩だけなので、非線形な loss landscape では弱いことがあります。
  • FGSM adversarial training は label leaking や gradient masking を起こす場合があります。
  • Robustness 評価には PGD や AutoAttack などの強い multi-step attack が必要です。

関連ページ

主なソース