Adversarial Robustness Overview

Adversarial robustness は、機械学習モデルが 攻撃者によって意図的に作られた入力やデータ に対して、どれだけ安定して正しく振る舞えるかを扱う分野です。代表例は、画像に人間にはほとんど見えない perturbation を加えるだけで classifier の予測を変える adversarial example です。

Adversarial taxonomy

自作概念図。Adversarial machine learning は、test-time の evasion attack だけでなく、training-time の poisoning / backdoor、physical attack、LLM prompt injection まで含みます。

基本問題

Classifier $f_\theta$ 、入力 $x$ 、正解 label $y$ 、loss $\ell$ を考えます。Adversarial attack は、許された perturbation set $\Delta$ の中で、model の loss を大きくする入力 $x' = x + \delta$ を探します。

\delta^* \in \arg\max_{\delta \in \Delta} \ell(f_\theta(x+\delta), y)

典型的には、画像分類で次の制約を置きます。

\Delta = \{\delta : \|\delta\|_p \le \epsilon,\; x+\delta \in [0,1]^d\}

人間にはほとんど同じに見える範囲に制限しているにもかかわらず、model の出力が大きく変わることが問題です。

攻撃の分類

軸	代表例	何が違うか
Attack timing	evasion、poisoning、backdoor	推論時に攻撃するか、学習時に汚染するか
Attacker knowledge	white-box、gray-box、black-box	gradient や model weight を知っているか
Goal	targeted、untargeted	特定 class に誤分類させるか、とにかく間違わせるか
Constraint	$L_\infty$ 、 $L_2$ 、 $L_0$ 、physical patch	どの perturbation を許すか
Domain	image、audio、text、LLM、multimodal	入力空間と human perception が異なる

Robust risk

通常の empirical risk minimization は、clean data 上の平均 loss を下げます。

\min_\theta \mathbb{E}_{(x,y)\sim \mathcal{D}}\left[\ell(f_\theta(x),y)\right]

Adversarial robustness では、各入力の近傍で最悪の loss を下げる robust optimization として定式化します。

\min_\theta \mathbb{E}_{(x,y)\sim \mathcal{D}}\left[ \max_{\delta \in \Delta}\ell(f_\theta(x+\delta),y) \right]

この内側の maximization が attack、外側の minimization が defense / adversarial training に対応します。

なぜ重要か

自動運転、医療、顔認証など safety-critical system では、小さな perturbation が大きな事故につながります。
Security system では、攻撃者が model の弱点を意図的に突きます。
LLM agent では、prompt injection によって tool use や private data access が悪用されます。
Robustness は単なる accuracy ではなく、system-level safety、data governance、human-in-the-loop 設計と結びつきます。

このカテゴリのページ

ページ	内容
Threat Models and Notation	攻撃者の知識、目的、制約、評価設定
Adversarial Examples and FGSM	linearity 仮説、FGSM、FGM、BIM
PGD and Adversarial Training	PGD、min-max training、robust optimization
Optimization-based Attacks	Carlini-Wagner、DeepFool、EAD
Black-box and Transfer Attacks	transferability、NES、SPSA、Square Attack
Universal and Physical Attacks	universal perturbation、adversarial patch、physical-world attack
Poisoning and Backdoor Attacks	data poisoning、clean-label poisoning、BadNets、Trojan
Adversarial Defenses	adversarial training、preprocessing、防御の限界
Certified Robustness	randomized smoothing、interval bound propagation、certificate
Robustness Evaluation	AutoAttack、gradient masking、robust accuracy
LLM and Multimodal Adversarial Attacks	jailbreak、prompt injection、adversarial suffix、multimodal injection
Text and NLP Adversarial Attacks	HotFlip、TextFooler、離散 token attack
Model Extraction and Privacy Attacks	prediction API、membership inference、model inversion

数式で見る robust risk

通常の学習は、clean input に対する expected risk を小さくします。

R(f)=\mathbb{E}_{(x,y)\sim\mathcal{D}}[\ell(f(x),y)]

Adversarial robustness では、許された perturbation 集合 $\mathcal{S}$ の中で最悪の入力を考えます。

R_{rob}(f)=\mathbb{E}_{(x,y)\sim\mathcal{D}}\left[ \max_{\delta\in\mathcal{S}}\ell(f(x+\delta),y) \right]

たとえば $\ell_\infty$ threat model では、 $\mathcal{S}=\{\delta:\|\delta\|_\infty\le\epsilon\}$ です。この式の気持ちは、「きれいな入力だけでなく、攻撃者が許された範囲で最も嫌な perturbation を入れても正しく分類できるようにしたい」というものです。

Adversarial training は、この内側の max を PGD などで近似し、その worst-case example で外側の学習を行います。

主なソース

Intriguing properties of neural networks: https://arxiv.org/abs/1312.6199
Explaining and Harnessing Adversarial Examples: https://arxiv.org/abs/1412.6572
Towards Deep Learning Models Resistant to Adversarial Attacks: https://arxiv.org/abs/1706.06083
Adversarial Machine Learning at Scale: https://arxiv.org/abs/1611.01236
Adversarial Examples Are Not Bugs, They Are Features: https://arxiv.org/abs/1905.02175

基本問題​

攻撃の分類​

Robust risk​

なぜ重要か​

このカテゴリのページ​

数式で見る robust risk​

関連ページ​

主なソース​