Adversarial Defenses
Adversarial defense は、adversarial attack に対する model や system の耐性を高める方法です。重要なのは、防御が本当に worst-case robustness を上げているのか、それとも攻撃の gradient を見えにくくしているだけなのかを区別することです。
防御の分類
Adversarial training
Adversarial training は最も強い empirical defense の一つです。Training loop の中で attack を実行し、その adversarial example に対して model を更新します。
PGD adversarial training、TRADES、MART、Free adversarial training、Fast adversarial training などの variant があります。
Input preprocessing
Input preprocessing は、入力を変換して adversarial perturbation を除去しようとする防御です。
| 防御 | 例 | 注意点 |
|---|---|---|
| Compression | JPEG、bit-depth reduction | Adaptive attack で破られやすい |
| Denoising | denoising autoencoder、diffusion purification | 計算 cost と BPDA 対策が必要 |
| Randomization | random resize / padding | EOT で攻撃される |
| Feature squeezing | color depth reduction、smoothing | 単独では強い robustness を保証しにくい |
Detection / rejection
Adversarial input を検出して reject する方法もあります。たとえば、activation pattern、input reconstruction error、density estimate、confidence calibration を使います。ただし、検出器も攻撃対象です。
Adaptive attack では、classification loss と detection bypass loss を同時に最適化します。
Gradient masking の落とし穴
Gradient masking は、model が本当に robust なのではなく、gradient-based attack が失敗しやすいだけの状態です。典型的には、非微分 preprocessing、randomization、不連続な detector によって起こります。
Gradient masking を疑う兆候は次の通りです。
- Iterative attack より one-step attack の方が強い。
- White-box attack より black-box transfer attack の方が強い。
- Attack step 数を増やしても成功率が上がらない。
- Loss landscape が不自然に jagged である。
BPDA や EOT を使う adaptive attack で評価する必要があります。
Certified defense との違い
Empirical defense は、ある attack に対して強いことを示します。Certified defense は、特定の norm ball 内では予測が変わらないことを数学的に保証します。Certified defense の詳細は Certified Robustness を参照してください。
System-level defense
実運用では、model 単体の robustness だけでは不十分です。
- 入力 validation と rate limiting
- Ensemble と fallback model
- Confidence threshold と human review
- Monitoring と incident response
- Model / data supply chain の監査
- LLM agent では tool permission と sandbox
関連ページ
- PGD and Adversarial Training
- Certified Robustness
- Robustness Evaluation
- Poisoning and Backdoor Attacks
主なソース
- Towards Deep Learning Models Resistant to Adversarial Attacks: https://arxiv.org/abs/1706.06083
- Obfuscated Gradients Give a False Sense of Security: https://arxiv.org/abs/1802.00420
- Feature Squeezing: https://arxiv.org/abs/1704.01155
- Countering Adversarial Images using Input Transformations: https://arxiv.org/abs/1711.00117
- TRADES: https://arxiv.org/abs/1901.08573