Model Extraction and Privacy Attacks
Model extraction と privacy attack は、model の予測 API や出力を通じて、model 自体や training data に関する秘密情報を推測する攻撃です。Evasion attack が入力を誤分類させるのに対し、ここでは model confidentiality と data privacy が攻撃対象になります。
Model extraction
Model extraction は、black-box API に query を送り、target model と同じように振る舞う surrogate model を作る攻撃です。
ここで は probability distribution や logit の差を測る distance です。API が confidence score を返す場合、label だけの場合より情報量が多く、extraction が容易になります。
Model extraction の目的
| 目的 | 内容 |
|---|---|
| Functionality stealing | 有料 API と同等の model を作る |
| Hyperparameter inference | model type や parameter を推定する |
| Attack staging | surrogate model を使って transfer attack を作る |
| Security bypass | spam / malware detector を模倣して回避例を探す |
Membership inference
Membership inference は、ある record が training set に含まれていたかを推測する攻撃です。
Training data に含まれていた sample では、model が高 confidence で正解しやすい場合があります。この train / non-train の出力分布の差を使います。
Shadow model attack
代表的な membership inference では、攻撃者が shadow model を複数訓練し、member と non-member の出力 pattern を学習する attack model を作ります。
Model inversion / training data leakage
Model inversion は、model の出力から training data の特徴や prototype を復元しようとする攻撃です。Generative model や LLM では、training data memorization によって、特定の prompt から training sequence が再現されることがあります。
防御
| 防御 | 内容 | 注意点 |
|---|---|---|
| Limit confidence output | probability ではなく label だけ返す | label-only extraction も可能 |
| Rate limiting | query 数を制限する | distributed attack に注意 |
| Watermarking | stolen model を検出しやすくする | adaptive attacker に注意 |
| Differential privacy | training data leakage を抑える | utility trade-off がある |
| Regularization / calibration | overfitting を減らす | privacy guarantee ではない |
| Monitoring | query pattern を監視する | false positive と privacy の balance が必要 |
LLM API での注意
LLM では、logprob API、embedding API、fine-tuning API、batch query が extraction / privacy attack の surface になります。特に、model output が長く豊富であるため、単一 query から得られる情報量が大きいです。System prompt extraction、training data extraction、fine-tuning data inference も関連する脅威です。
関連ページ
- Black-box and Transfer Attacks
- Poisoning and Backdoor Attacks
- LLM and Multimodal Adversarial Attacks
- Robustness Evaluation
主なソース
- Stealing Machine Learning Models via Prediction APIs: https://arxiv.org/abs/1609.02943
- Membership Inference Attacks against Machine Learning Models: https://arxiv.org/abs/1610.05820
- Model Inversion Attacks that Exploit Confidence Information: https://dl.acm.org/doi/10.1145/2810103.2813677
- Extracting Training Data from Large Language Models: https://arxiv.org/abs/2012.07805
- Stealing Part of a Production Language Model: https://arxiv.org/abs/2403.06634