Optimization-based Attacks
Optimization-based attack は、adversarial example 生成を明示的な optimization problem として解きます。FGSM / PGD が gradient step を繰り返す標準的な attack であるのに対し、CW や DeepFool は margin や decision boundary との距離に着目します。
基本形
Targeted attack の典型的な目的は、perturbation を小さくしつつ target class に分類させることです。
ここで は adversarial condition を満たすための penalty function、 は距離と攻撃成功の trade-off です。
Carlini-Wagner attack
Carlini-Wagner (CW) attack は、logit margin を使う強力な optimization-based attack です。Targeted CW attack では、次の objective を使います。
ここで、 は class の logit、 は confidence margin です。 なら target class の logit が他 class より十分大きいことを意味します。
画像の範囲制約 を扱うために、CW は tanh reparameterization を使います。
この形にすれば、optimization variable は unconstrained にできます。
DeepFool
DeepFool は、classifier の decision boundary を局所的に線形近似し、最小 perturbation で boundary を越える方向を求めます。
Binary linear classifier の場合、境界 までの最小 perturbation は次の通りです。
Multi-class classifier では、現在の class と他 class の logit 差を線形化し、最も近い boundary を選びます。
最小の を持つ class の方向へ更新します。
EAD
Elastic-net Attack to DNNs (EAD) は、CW attack に penalty を加えます。
penalty によって sparse perturbation を促し、少数 feature の変更で攻撃する方向に向かいます。
比較
| Attack | 主な制約 | 特徴 |
|---|---|---|
| CW | 、、 | logit margin を使う強力な最適化攻撃 |
| DeepFool | 主に | decision boundary までの最小距離を近似 |
| EAD | sparse perturbation を作りやすい | |
| PGD | 主に / | adversarial training と評価の標準 |
注意点
- Optimization-based attack は強力ですが、計算 cost が高くなりやすいです。
- Confidence margin を上げると transferability が増す場合がありますが、perturbation も大きくなります。
- Defense evaluation では、CW だけでなく PGD、AutoAttack、adaptive attack を併用します。
関連ページ
- Threat Models and Notation
- Adversarial Examples and FGSM
- PGD and Adversarial Training
- Robustness Evaluation
主なソース
- Towards Evaluating the Robustness of Neural Networks: https://arxiv.org/abs/1608.04644
- DeepFool: a simple and accurate method to fool deep neural networks: https://arxiv.org/abs/1511.04599
- EAD: Elastic-Net Attacks to Deep Neural Networks via Adversarial Examples: https://arxiv.org/abs/1709.04114
- Adversarial Examples Are Not Easily Detected: Bypassing Ten Detection Methods: https://arxiv.org/abs/1705.07263