Optimization-based Attacks

Optimization-based attack は、adversarial example 生成を明示的な optimization problem として解きます。FGSM / PGD が gradient step を繰り返す標準的な attack であるのに対し、CW や DeepFool は margin や decision boundary との距離に着目します。

基本形

Targeted attack の典型的な目的は、perturbation を小さくしつつ target class $t$ に分類させることです。

\min_\delta \; \|\delta\|_p + c\,g(x+\delta)

ここで $g$ は adversarial condition を満たすための penalty function、 $c$ は距離と攻撃成功の trade-off です。

Carlini-Wagner attack

Carlini-Wagner (CW) attack は、logit margin を使う強力な optimization-based attack です。Targeted CW $L_2$ attack では、次の objective を使います。

\min_\delta \; \|\delta\|_2^2 + c\,g(x+\delta)

g(x') = \max\left(\max_{i\ne t} z_i(x') - z_t(x'),\; -\kappa\right)

ここで、 $z_i(x')$ は class $i$ の logit、 $\kappa$ は confidence margin です。 $g(x') \le 0$ なら target class $t$ の logit が他 class より十分大きいことを意味します。

画像の範囲制約 $x' \in [0,1]^d$ を扱うために、CW は tanh reparameterization を使います。

x' = \frac{1}{2}(\tanh(w)+1)

この形にすれば、optimization variable $w$ は unconstrained にできます。

DeepFool

DeepFool は、classifier の decision boundary を局所的に線形近似し、最小 perturbation で boundary を越える方向を求めます。

Binary linear classifier $f(x)=w^\top x + b$ の場合、境界 $f(x)=0$ までの最小 $L_2$ perturbation は次の通りです。

r^* = -\frac{f(x)}{\|w\|_2^2}w

Multi-class classifier では、現在の class $k$ と他 class $i$ の logit 差を線形化し、最も近い boundary を選びます。

r_i = \frac{|f_i(x)-f_k(x)|}{\|\nabla f_i(x)-\nabla f_k(x)\|_2^2}\left(\nabla f_i(x)-\nabla f_k(x)\right)

最小の $\|r_i\|_2$ を持つ class の方向へ更新します。

EAD

Elastic-net Attack to DNNs (EAD) は、CW attack に $L_1$ penalty を加えます。

\min_\delta \; c\,g(x+\delta) + \|\delta\|_2^2 + \beta\|\delta\|_1

$L_1$ penalty によって sparse perturbation を促し、少数 feature の変更で攻撃する方向に向かいます。

比較

Attack	主な制約	特徴
CW	$L_2$ 、 $L_\infty$ 、 $L_0$	logit margin を使う強力な最適化攻撃
DeepFool	主に $L_2$	decision boundary までの最小距離を近似
EAD	$L_1 + L_2$	sparse perturbation を作りやすい
PGD	主に $L_\infty$ / $L_2$	adversarial training と評価の標準

注意点

Optimization-based attack は強力ですが、計算 cost が高くなりやすいです。
Confidence margin $\kappa$ を上げると transferability が増す場合がありますが、perturbation も大きくなります。
Defense evaluation では、CW だけでなく PGD、AutoAttack、adaptive attack を併用します。

主なソース

Towards Evaluating the Robustness of Neural Networks: https://arxiv.org/abs/1608.04644
DeepFool: a simple and accurate method to fool deep neural networks: https://arxiv.org/abs/1511.04599
EAD: Elastic-Net Attacks to Deep Neural Networks via Adversarial Examples: https://arxiv.org/abs/1709.04114
Adversarial Examples Are Not Easily Detected: Bypassing Ten Detection Methods: https://arxiv.org/abs/1705.07263

基本形​

Carlini-Wagner attack​

DeepFool​

EAD​

比較​

注意点​

関連ページ​

主なソース​

基本形

Carlini-Wagner attack

DeepFool

EAD

比較

注意点

関連ページ

主なソース