Skip to main content

Adversarial Robustness Overview

Adversarial robustness は、機械学習モデルが 攻撃者によって意図的に作られた入力やデータ に対して、どれだけ安定して正しく振る舞えるかを扱う分野です。代表例は、画像に人間にはほとんど見えない perturbation を加えるだけで classifier の予測を変える adversarial example です。

Adversarial taxonomy

自作概念図。Adversarial machine learning は、test-time の evasion attack だけでなく、training-time の poisoning / backdoor、physical attack、LLM prompt injection まで含みます。

基本問題

Classifier fθf_\theta、入力 xx、正解 label yy、loss \ell を考えます。Adversarial attack は、許された perturbation set Δ\Delta の中で、model の loss を大きくする入力 x=x+δx' = x + \delta を探します。

δargmaxδΔ(fθ(x+δ),y)\delta^* \in \arg\max_{\delta \in \Delta} \ell(f_\theta(x+\delta), y)

典型的には、画像分類で次の制約を置きます。

Δ={δ:δpϵ,  x+δ[0,1]d}\Delta = \{\delta : \|\delta\|_p \le \epsilon,\; x+\delta \in [0,1]^d\}

人間にはほとんど同じに見える範囲に制限しているにもかかわらず、model の出力が大きく変わることが問題です。

攻撃の分類

代表例何が違うか
Attack timingevasion、poisoning、backdoor推論時に攻撃するか、学習時に汚染するか
Attacker knowledgewhite-box、gray-box、black-boxgradient や model weight を知っているか
Goaltargeted、untargeted特定 class に誤分類させるか、とにかく間違わせるか
ConstraintLL_\inftyL2L_2L0L_0、physical patchどの perturbation を許すか
Domainimage、audio、text、LLM、multimodal入力空間と human perception が異なる

Robust risk

通常の empirical risk minimization は、clean data 上の平均 loss を下げます。

minθE(x,y)D[(fθ(x),y)]\min_\theta \mathbb{E}_{(x,y)\sim \mathcal{D}}\left[\ell(f_\theta(x),y)\right]

Adversarial robustness では、各入力の近傍で最悪の loss を下げる robust optimization として定式化します。

minθE(x,y)D[maxδΔ(fθ(x+δ),y)]\min_\theta \mathbb{E}_{(x,y)\sim \mathcal{D}}\left[ \max_{\delta \in \Delta}\ell(f_\theta(x+\delta),y) \right]

この内側の maximization が attack、外側の minimization が defense / adversarial training に対応します。

なぜ重要か

  • 自動運転、医療、顔認証など safety-critical system では、小さな perturbation が大きな事故につながります。
  • Security system では、攻撃者が model の弱点を意図的に突きます。
  • LLM agent では、prompt injection によって tool use や private data access が悪用されます。
  • Robustness は単なる accuracy ではなく、system-level safety、data governance、human-in-the-loop 設計と結びつきます。

このカテゴリのページ

ページ内容
Threat Models and Notation攻撃者の知識、目的、制約、評価設定
Adversarial Examples and FGSMlinearity 仮説、FGSM、FGM、BIM
PGD and Adversarial TrainingPGD、min-max training、robust optimization
Optimization-based AttacksCarlini-Wagner、DeepFool、EAD
Black-box and Transfer Attackstransferability、NES、SPSA、Square Attack
Universal and Physical Attacksuniversal perturbation、adversarial patch、physical-world attack
Poisoning and Backdoor Attacksdata poisoning、clean-label poisoning、BadNets、Trojan
Adversarial Defensesadversarial training、preprocessing、防御の限界
Certified Robustnessrandomized smoothing、interval bound propagation、certificate
Robustness EvaluationAutoAttack、gradient masking、robust accuracy
LLM and Multimodal Adversarial Attacksjailbreak、prompt injection、adversarial suffix、multimodal injection
Text and NLP Adversarial AttacksHotFlip、TextFooler、離散 token attack
Model Extraction and Privacy Attacksprediction API、membership inference、model inversion

数式で見る robust risk

通常の学習は、clean input に対する expected risk を小さくします。

R(f)=E(x,y)D[(f(x),y)]R(f)=\mathbb{E}_{(x,y)\sim\mathcal{D}}[\ell(f(x),y)]

Adversarial robustness では、許された perturbation 集合 S\mathcal{S} の中で最悪の入力を考えます。

Rrob(f)=E(x,y)D[maxδS(f(x+δ),y)]R_{rob}(f)=\mathbb{E}_{(x,y)\sim\mathcal{D}}\left[ \max_{\delta\in\mathcal{S}}\ell(f(x+\delta),y) \right]

たとえば \ell_\infty threat model では、S={δ:δϵ}\mathcal{S}=\{\delta:\|\delta\|_\infty\le\epsilon\} です。この式の気持ちは、「きれいな入力だけでなく、攻撃者が許された範囲で最も嫌な perturbation を入れても正しく分類できるようにしたい」というものです。

Adversarial training は、この内側の max を PGD などで近似し、その worst-case example で外側の学習を行います。

関連ページ

主なソース