Adversarial Robustness | Haruk1y Wiki

📄️Adversarial Robustness Overview

Adversarial attack、adversarial example、poisoning、backdoor、certified robustness、LLM jailbreak を俯瞰します。

Adversarial attack の threat model、white-box / black-box、targeted / untargeted、Lp constraint、robust accuracy を整理します。

Adversarial example の基本、linearity 仮説、FGSM、FGM、BIM / I-FGSM の数式と直感を整理します。

Projected Gradient Descent attack、random restarts、robust optimization、adversarial training の数式と実務上の注意を整理します。

Carlini-Wagner attack、DeepFool、EAD など、明示的な最適化問題として adversarial example を作る手法を整理します。

Transferability、surrogate model、NES、SPSA、Square Attack、decision-based attack など black-box adversarial attack を整理します。

Universal adversarial perturbation、adversarial patch、物理世界での attack、Expectation over Transformation を整理します。

Training-time attack としての data poisoning、clean-label poisoning、backdoor / Trojan attack、ASR と clean accuracy を整理します。

Adversarial training、input preprocessing、denoising、detection、gradient masking の落とし穴、防御設計を整理します。

Randomized smoothing、interval bound propagation、convex relaxation、Lipschitz bound など、証明可能な robustness を整理します。

Robust accuracy、AutoAttack、adaptive attack、gradient masking、attack budget、報告すべき評価項目を整理します。

LLM jailbreak、prompt injection、adversarial suffix、RAG poisoning、multimodal prompt injection、agent tool misuse を整理します。

文字・単語置換、HotFlip、TextFooler、BERT-Attack など、離散 token 空間における NLP adversarial attack を整理します。

Prediction API から model を複製する model extraction、membership inference、model inversion、training data leakage を整理します。