Adversarial Examples and FGSM
Adversarial example は、元の入力に小さな perturbation を加えることで、model の予測を誤らせる入力です。Deep neural network では、人間にはほとんど同じに見える画像でも、予測 class が大きく変わることがあります。
Adversarial example の定義
入力 、正解 、classifier に対して、次を満たす を adversarial example と呼びます。
Targeted attack では、特定の target class を狙います。
Linearity 仮説
Goodfellow らは、adversarial example の一因として、高次元空間における model の線形的な振る舞いを指摘しました。線形 model に perturbation を加えると、logit の変化は次のようになります。
制約 の下で、この変化を最大化する perturbation は
です。各 feature の変化は小さくても、dimension が大きいと は大きくなり得ます。
FGSM
Fast Gradient Sign Method (FGSM) は、loss を入力 で一階近似し、 ball の中で loss を最大化する方向に一歩動かします。
ここで は valid pixel range への projection です。
Targeted FGSM では、target class の loss を下げる方向へ動かします。
FGM
Fast Gradient Method (FGM) は 制約での一歩攻撃です。
FGSM が sign だけを使うのに対して、FGM は gradient direction を 正規化します。
BIM / I-FGSM
Basic Iterative Method (BIM) または Iterative FGSM は、FGSM を小さい step size で複数回繰り返します。
各 step の後に、元画像 の ball に戻す projection を行います。BIM は FGSM より強いですが、random initialization がないため、PGD より探索は弱いことがあります。
FGSM の限界
- 一歩だけなので、非線形な loss landscape では弱いことがあります。
- FGSM adversarial training は label leaking や gradient masking を起こす場合があります。
- Robustness 評価には PGD や AutoAttack などの強い multi-step attack が必要です。
関連ページ
- Threat Models and Notation
- PGD and Adversarial Training
- Optimization-based Attacks
- Robustness Evaluation
主なソース
- Intriguing properties of neural networks: https://arxiv.org/abs/1312.6199
- Explaining and Harnessing Adversarial Examples: https://arxiv.org/abs/1412.6572
- Adversarial Machine Learning at Scale: https://arxiv.org/abs/1611.01236
- Practical Black-Box Attacks against Machine Learning: https://arxiv.org/abs/1602.02697