Adversarial Robustness Overview
Adversarial attack、adversarial example、poisoning、backdoor、certified robustness、LLM jailbreak を俯瞰します。
Threat Models and Notation
Adversarial attack の threat model、white-box / black-box、targeted / untargeted、Lp constraint、robust accuracy を整理します。
Adversarial Examples and FGSM
Adversarial example の基本、linearity 仮説、FGSM、FGM、BIM / I-FGSM の数式と直感を整理します。
PGD and Adversarial Training
Projected Gradient Descent attack、random restarts、robust optimization、adversarial training の数式と実務上の注意を整理します。
Optimization-based Attacks
Carlini-Wagner attack、DeepFool、EAD など、明示的な最適化問題として adversarial example を作る手法を整理します。
Black-box and Transfer Attacks
Transferability、surrogate model、NES、SPSA、Square Attack、decision-based attack など black-box adversarial attack を整理します。
Universal and Physical Attacks
Universal adversarial perturbation、adversarial patch、物理世界での attack、Expectation over Transformation を整理します。
Poisoning and Backdoor Attacks
Training-time attack としての data poisoning、clean-label poisoning、backdoor / Trojan attack、ASR と clean accuracy を整理します。
Adversarial Defenses
Adversarial training、input preprocessing、denoising、detection、gradient masking の落とし穴、防御設計を整理します。
Certified Robustness
Randomized smoothing、interval bound propagation、convex relaxation、Lipschitz bound など、証明可能な robustness を整理します。
Robustness Evaluation
Robust accuracy、AutoAttack、adaptive attack、gradient masking、attack budget、報告すべき評価項目を整理します。
LLM and Multimodal Adversarial Attacks
LLM jailbreak、prompt injection、adversarial suffix、RAG poisoning、multimodal prompt injection、agent tool misuse を整理します。
Text and NLP Adversarial Attacks
文字・単語置換、HotFlip、TextFooler、BERT-Attack など、離散 token 空間における NLP adversarial attack を整理します。
Model Extraction and Privacy Attacks
Prediction API から model を複製する model extraction、membership inference、model inversion、training data leakage を整理します。