Adversarial Robustness Overview
Adversarial robustness は、機械学習モデルが 攻撃者によって意図的に作られた入力やデータ に対して、どれだけ安定して正しく振る舞えるかを扱う分野です。代表例は、画像に人間にはほとんど見えない perturbation を加えるだけで classifier の予測を変える adversarial example です。
自作概念図。Adversarial machine learning は、test-time の evasion attack だけでなく、training-time の poisoning / backdoor、physical attack、LLM prompt injection まで含みます。
基本問題
Classifier 、入力 、正解 label 、loss を考えます。Adversarial attack は、許された perturbation set の中で、model の loss を大きくする入力 を探します。
典型的には、画像分類で次の制約を置きます。
人間にはほとんど同じに見える範囲に制限しているにもかかわらず、model の出力が大きく変わることが問題です。
攻撃の分類
| 軸 | 代表例 | 何が違うか |
|---|---|---|
| Attack timing | evasion、poisoning、backdoor | 推論時に攻撃するか、学習時に汚染するか |
| Attacker knowledge | white-box、gray-box、black-box | gradient や model weight を知っているか |
| Goal | targeted、untargeted | 特定 class に誤分類させるか、とにかく間違わせるか |
| Constraint | 、、、physical patch | どの perturbation を許すか |
| Domain | image、audio、text、LLM、multimodal | 入力空間と human perception が異なる |
Robust risk
通常の empirical risk minimization は、clean data 上の平均 loss を下げます。
Adversarial robustness では、各入力の近傍で最悪の loss を下げる robust optimization として定式化します。
この内側の maximization が attack、外側の minimization が defense / adversarial training に対応します。
なぜ重要か
- 自動運転、医療、顔認証など safety-critical system では、小さな perturbation が大きな事故につながります。
- Security system では、攻撃者が model の弱点を意図的に突きます。
- LLM agent では、prompt injection によって tool use や private data access が悪用されます。
- Robustness は単なる accuracy ではなく、system-level safety、data governance、human-in-the-loop 設計と結びつきます。
このカテゴリのページ
| ページ | 内容 |
|---|---|
| Threat Models and Notation | 攻撃者の知識、目的、制約、評価設定 |
| Adversarial Examples and FGSM | linearity 仮説、FGSM、FGM、BIM |
| PGD and Adversarial Training | PGD、min-max training、robust optimization |
| Optimization-based Attacks | Carlini-Wagner、DeepFool、EAD |
| Black-box and Transfer Attacks | transferability、NES、SPSA、Square Attack |
| Universal and Physical Attacks | universal perturbation、adversarial patch、physical-world attack |
| Poisoning and Backdoor Attacks | data poisoning、clean-label poisoning、BadNets、Trojan |
| Adversarial Defenses | adversarial training、preprocessing、防御の限界 |
| Certified Robustness | randomized smoothing、interval bound propagation、certificate |
| Robustness Evaluation | AutoAttack、gradient masking、robust accuracy |
| LLM and Multimodal Adversarial Attacks | jailbreak、prompt injection、adversarial suffix、multimodal injection |
| Text and NLP Adversarial Attacks | HotFlip、TextFooler、離散 token attack |
| Model Extraction and Privacy Attacks | prediction API、membership inference、model inversion |
数式で見る robust risk
通常の学習は、clean input に対する expected risk を小さくします。
Adversarial robustness では、許された perturbation 集合 の中で最悪の入力を考えます。
たとえば threat model では、 です。この式の気持ちは、「きれいな入力だけでなく、攻撃者が許された範囲で最も嫌な perturbation を入れても正しく分類できるようにしたい」というものです。
Adversarial training は、この内側の max を PGD などで近似し、その worst-case example で外側の学習を行います。
関連ページ
- Security and Trustworthiness in AI Agents
- LLM Evaluation
- Reward Hacking and Alignment Failures
- Diffusion Models
主なソース
- Intriguing properties of neural networks: https://arxiv.org/abs/1312.6199
- Explaining and Harnessing Adversarial Examples: https://arxiv.org/abs/1412.6572
- Towards Deep Learning Models Resistant to Adversarial Attacks: https://arxiv.org/abs/1706.06083
- Adversarial Machine Learning at Scale: https://arxiv.org/abs/1611.01236
- Adversarial Examples Are Not Bugs, They Are Features: https://arxiv.org/abs/1905.02175