Black-box and Transfer Attacks
Black-box attack は、攻撃者が model の weight や gradient を直接知らない設定で adversarial example を作る攻撃です。API だけを query できる現実的な system では、black-box robustness が重要になります。
Transfer attack
Transferability とは、ある model に対して作った adversarial example が、別の model にも通用する現象です。攻撃者は surrogate model を用意し、white-box attack を surrogate に対して実行します。
その を target model に入力します。Architecture や training data が似ているほど transfer しやすい傾向があります。
Score-based attack
Score-based attack は、target model の confidence、probability、logit などを query できる設定です。Gradient を直接知らなくても、finite difference や gradient estimator で近似します。
Finite difference
Coordinate 方向の gradient は次のように近似できます。
ただし high-dimensional image では query 数が大きくなりすぎます。
NES
Natural Evolution Strategies (NES) では、random direction を使って gradient を推定します。
SPSA
SPSA も random perturbation による gradient-free optimization です。Query budget が限られる black-box setting でよく使われます。
Square Attack
Square Attack は score-based black-box attack の一つで、画像内の square region を random に選んで perturbation を更新します。Gradient を推定しないため simple で、query-efficient な baseline として使われます。AutoAttack にも black-box component として含まれます。
Decision-based attack
Decision-based attack は、最終 class label だけを query できる設定です。Boundary Attack や HopSkipJump Attack は、すでに misclassified された点から decision boundary に沿って perturbation を小さくしていきます。
| Attack | Query output | 特徴 |
|---|---|---|
| Transfer attack | なし、または label | surrogate で作った adversarial example を使う |
| NES / SPSA | score / probability | gradient estimator を使う |
| Square Attack | score | random square update で query-efficient |
| Boundary Attack | label | decision boundary から近づける |
| HopSkipJump | label | boundary direction を効率よく推定する |
Query budget
Black-box evaluation では、query budget を明示する必要があります。Budget が大きすぎると現実的ではなく、budget が小さすぎると攻撃が弱く見えます。
関連ページ
- Threat Models and Notation
- Optimization-based Attacks
- Robustness Evaluation
- LLM and Multimodal Adversarial Attacks
- Model Extraction and Privacy Attacks
主なソース
- Practical Black-Box Attacks against Machine Learning: https://arxiv.org/abs/1602.02697
- Black-box Adversarial Attacks with Limited Queries and Information: https://arxiv.org/abs/1804.08598
- Adversarial Risk and the Dangers of Evaluating Against Weak Attacks: https://arxiv.org/abs/1802.05666
- Square Attack: https://arxiv.org/abs/1912.00049
- HopSkipJumpAttack: https://arxiv.org/abs/1904.02144