Skip to main content

Adversarial Defenses

Adversarial defense は、adversarial attack に対する model や system の耐性を高める方法です。重要なのは、防御が本当に worst-case robustness を上げているのか、それとも攻撃の gradient を見えにくくしているだけなのかを区別することです。

防御の分類

Adversarial training

Adversarial training は最も強い empirical defense の一つです。Training loop の中で attack を実行し、その adversarial example に対して model を更新します。

minθE(x,y)[maxδΔ(fθ(x+δ),y)]\min_\theta \mathbb{E}_{(x,y)}\left[ \max_{\delta \in \Delta}\ell(f_\theta(x+\delta),y) \right]

PGD adversarial training、TRADES、MART、Free adversarial training、Fast adversarial training などの variant があります。

Input preprocessing

Input preprocessing は、入力を変換して adversarial perturbation を除去しようとする防御です。

防御注意点
CompressionJPEG、bit-depth reductionAdaptive attack で破られやすい
Denoisingdenoising autoencoder、diffusion purification計算 cost と BPDA 対策が必要
Randomizationrandom resize / paddingEOT で攻撃される
Feature squeezingcolor depth reduction、smoothing単独では強い robustness を保証しにくい

Detection / rejection

Adversarial input を検出して reject する方法もあります。たとえば、activation pattern、input reconstruction error、density estimate、confidence calibration を使います。ただし、検出器も攻撃対象です。

Adaptive attack では、classification loss と detection bypass loss を同時に最適化します。

maxδΔ  cls(f(x+δ),y)λdet(d(x+δ),benign)\max_{\delta \in \Delta}\; \ell_{\mathrm{cls}}(f(x+\delta),y) - \lambda\,\ell_{\mathrm{det}}(d(x+\delta),\mathrm{benign})

Gradient masking の落とし穴

Gradient masking は、model が本当に robust なのではなく、gradient-based attack が失敗しやすいだけの状態です。典型的には、非微分 preprocessing、randomization、不連続な detector によって起こります。

Gradient masking を疑う兆候は次の通りです。

  • Iterative attack より one-step attack の方が強い。
  • White-box attack より black-box transfer attack の方が強い。
  • Attack step 数を増やしても成功率が上がらない。
  • Loss landscape が不自然に jagged である。

BPDA や EOT を使う adaptive attack で評価する必要があります。

Certified defense との違い

Empirical defense は、ある attack に対して強いことを示します。Certified defense は、特定の norm ball 内では予測が変わらないことを数学的に保証します。Certified defense の詳細は Certified Robustness を参照してください。

System-level defense

実運用では、model 単体の robustness だけでは不十分です。

  • 入力 validation と rate limiting
  • Ensemble と fallback model
  • Confidence threshold と human review
  • Monitoring と incident response
  • Model / data supply chain の監査
  • LLM agent では tool permission と sandbox

関連ページ

主なソース