Model Extraction and Privacy Attacks

Model extraction と privacy attack は、model の予測 API や出力を通じて、model 自体や training data に関する秘密情報を推測する攻撃です。Evasion attack が入力を誤分類させるのに対し、ここでは model confidentiality と data privacy が攻撃対象になります。

Model extraction

Model extraction は、black-box API に query を送り、target model と同じように振る舞う surrogate model $\hat{f}$ を作る攻撃です。

\min_{\hat{\theta}} \; \mathbb{E}_{x\sim q(x)}\left[D\left(f_\theta(x), \hat{f}_{\hat{\theta}}(x)\right) \right]

ここで $D$ は probability distribution や logit の差を測る distance です。API が confidence score を返す場合、label だけの場合より情報量が多く、extraction が容易になります。

Model extraction の目的

目的	内容
Functionality stealing	有料 API と同等の model を作る
Hyperparameter inference	model type や parameter を推定する
Attack staging	surrogate model を使って transfer attack を作る
Security bypass	spam / malware detector を模倣して回避例を探す

Membership inference

Membership inference は、ある record $x$ が training set に含まれていたかを推測する攻撃です。

\mathcal{A}(x, f_\theta(x)) \rightarrow \{\mathrm{member}, \mathrm{nonmember}\}

Training data に含まれていた sample では、model が高 confidence で正解しやすい場合があります。この train / non-train の出力分布の差を使います。

Shadow model attack

代表的な membership inference では、攻撃者が shadow model を複数訓練し、member と non-member の出力 pattern を学習する attack model を作ります。

Model inversion / training data leakage

Model inversion は、model の出力から training data の特徴や prototype を復元しようとする攻撃です。Generative model や LLM では、training data memorization によって、特定の prompt から training sequence が再現されることがあります。

防御

防御	内容	注意点
Limit confidence output	probability ではなく label だけ返す	label-only extraction も可能
Rate limiting	query 数を制限する	distributed attack に注意
Watermarking	stolen model を検出しやすくする	adaptive attacker に注意
Differential privacy	training data leakage を抑える	utility trade-off がある
Regularization / calibration	overfitting を減らす	privacy guarantee ではない
Monitoring	query pattern を監視する	false positive と privacy の balance が必要

LLM API での注意

LLM では、logprob API、embedding API、fine-tuning API、batch query が extraction / privacy attack の surface になります。特に、model output が長く豊富であるため、単一 query から得られる情報量が大きいです。System prompt extraction、training data extraction、fine-tuning data inference も関連する脅威です。

主なソース

Stealing Machine Learning Models via Prediction APIs: https://arxiv.org/abs/1609.02943
Membership Inference Attacks against Machine Learning Models: https://arxiv.org/abs/1610.05820
Model Inversion Attacks that Exploit Confidence Information: https://dl.acm.org/doi/10.1145/2810103.2813677
Extracting Training Data from Large Language Models: https://arxiv.org/abs/2012.07805
Stealing Part of a Production Language Model: https://arxiv.org/abs/2403.06634