Adversarial Defenses

Adversarial defense は、adversarial attack に対する model や system の耐性を高める方法です。重要なのは、防御が本当に worst-case robustness を上げているのか、それとも攻撃の gradient を見えにくくしているだけなのかを区別することです。

防御の分類

Adversarial training

Adversarial training は最も強い empirical defense の一つです。Training loop の中で attack を実行し、その adversarial example に対して model を更新します。

\min_\theta \mathbb{E}_{(x,y)}\left[ \max_{\delta \in \Delta}\ell(f_\theta(x+\delta),y) \right]

PGD adversarial training、TRADES、MART、Free adversarial training、Fast adversarial training などの variant があります。

Input preprocessing

Input preprocessing は、入力を変換して adversarial perturbation を除去しようとする防御です。

防御	例	注意点
Compression	JPEG、bit-depth reduction	Adaptive attack で破られやすい
Denoising	denoising autoencoder、diffusion purification	計算 cost と BPDA 対策が必要
Randomization	random resize / padding	EOT で攻撃される
Feature squeezing	color depth reduction、smoothing	単独では強い robustness を保証しにくい

Detection / rejection

Adversarial input を検出して reject する方法もあります。たとえば、activation pattern、input reconstruction error、density estimate、confidence calibration を使います。ただし、検出器も攻撃対象です。

Adaptive attack では、classification loss と detection bypass loss を同時に最適化します。

\max_{\delta \in \Delta}\; \ell_{\mathrm{cls}}(f(x+\delta),y) - \lambda\,\ell_{\mathrm{det}}(d(x+\delta),\mathrm{benign})

Gradient masking の落とし穴

Gradient masking は、model が本当に robust なのではなく、gradient-based attack が失敗しやすいだけの状態です。典型的には、非微分 preprocessing、randomization、不連続な detector によって起こります。

Gradient masking を疑う兆候は次の通りです。

Iterative attack より one-step attack の方が強い。
White-box attack より black-box transfer attack の方が強い。
Attack step 数を増やしても成功率が上がらない。
Loss landscape が不自然に jagged である。

BPDA や EOT を使う adaptive attack で評価する必要があります。

Certified defense との違い

Empirical defense は、ある attack に対して強いことを示します。Certified defense は、特定の norm ball 内では予測が変わらないことを数学的に保証します。Certified defense の詳細は Certified Robustness を参照してください。

System-level defense

実運用では、model 単体の robustness だけでは不十分です。

入力 validation と rate limiting
Ensemble と fallback model
Confidence threshold と human review
Monitoring と incident response
Model / data supply chain の監査
LLM agent では tool permission と sandbox

主なソース

Towards Deep Learning Models Resistant to Adversarial Attacks: https://arxiv.org/abs/1706.06083
Obfuscated Gradients Give a False Sense of Security: https://arxiv.org/abs/1802.00420
Feature Squeezing: https://arxiv.org/abs/1704.01155
Countering Adversarial Images using Input Transformations: https://arxiv.org/abs/1711.00117
TRADES: https://arxiv.org/abs/1901.08573

防御の分類​

Adversarial training​

Input preprocessing​

Detection / rejection​

Gradient masking の落とし穴​

Certified defense との違い​

System-level defense​

関連ページ​

主なソース​