Skip to main content

Optimization-based Attacks

Optimization-based attack は、adversarial example 生成を明示的な optimization problem として解きます。FGSM / PGD が gradient step を繰り返す標準的な attack であるのに対し、CW や DeepFool は margin や decision boundary との距離に着目します。

基本形

Targeted attack の典型的な目的は、perturbation を小さくしつつ target class tt に分類させることです。

minδ  δp+cg(x+δ)\min_\delta \; \|\delta\|_p + c\,g(x+\delta)

ここで gg は adversarial condition を満たすための penalty function、cc は距離と攻撃成功の trade-off です。

Carlini-Wagner attack

Carlini-Wagner (CW) attack は、logit margin を使う強力な optimization-based attack です。Targeted CW L2L_2 attack では、次の objective を使います。

minδ  δ22+cg(x+δ)\min_\delta \; \|\delta\|_2^2 + c\,g(x+\delta) g(x)=max(maxitzi(x)zt(x),  κ)g(x') = \max\left(\max_{i\ne t} z_i(x') - z_t(x'),\; -\kappa\right)

ここで、zi(x)z_i(x') は class ii の logit、κ\kappa は confidence margin です。g(x)0g(x') \le 0 なら target class tt の logit が他 class より十分大きいことを意味します。

画像の範囲制約 x[0,1]dx' \in [0,1]^d を扱うために、CW は tanh reparameterization を使います。

x=12(tanh(w)+1)x' = \frac{1}{2}(\tanh(w)+1)

この形にすれば、optimization variable ww は unconstrained にできます。

DeepFool

DeepFool は、classifier の decision boundary を局所的に線形近似し、最小 perturbation で boundary を越える方向を求めます。

Binary linear classifier f(x)=wx+bf(x)=w^\top x + b の場合、境界 f(x)=0f(x)=0 までの最小 L2L_2 perturbation は次の通りです。

r=f(x)w22wr^* = -\frac{f(x)}{\|w\|_2^2}w

Multi-class classifier では、現在の class kk と他 class ii の logit 差を線形化し、最も近い boundary を選びます。

ri=fi(x)fk(x)fi(x)fk(x)22(fi(x)fk(x))r_i = \frac{|f_i(x)-f_k(x)|}{\|\nabla f_i(x)-\nabla f_k(x)\|_2^2}\left(\nabla f_i(x)-\nabla f_k(x)\right)

最小の ri2\|r_i\|_2 を持つ class の方向へ更新します。

EAD

Elastic-net Attack to DNNs (EAD) は、CW attack に L1L_1 penalty を加えます。

minδ  cg(x+δ)+δ22+βδ1\min_\delta \; c\,g(x+\delta) + \|\delta\|_2^2 + \beta\|\delta\|_1

L1L_1 penalty によって sparse perturbation を促し、少数 feature の変更で攻撃する方向に向かいます。

比較

Attack主な制約特徴
CWL2L_2LL_\inftyL0L_0logit margin を使う強力な最適化攻撃
DeepFool主に L2L_2decision boundary までの最小距離を近似
EADL1+L2L_1 + L_2sparse perturbation を作りやすい
PGD主に LL_\infty / L2L_2adversarial training と評価の標準

注意点

  • Optimization-based attack は強力ですが、計算 cost が高くなりやすいです。
  • Confidence margin κ\kappa を上げると transferability が増す場合がありますが、perturbation も大きくなります。
  • Defense evaluation では、CW だけでなく PGD、AutoAttack、adaptive attack を併用します。

関連ページ

主なソース