Skip to main content

Model Extraction and Privacy Attacks

Model extraction と privacy attack は、model の予測 API や出力を通じて、model 自体や training data に関する秘密情報を推測する攻撃です。Evasion attack が入力を誤分類させるのに対し、ここでは model confidentialitydata privacy が攻撃対象になります。

Model extraction

Model extraction は、black-box API に query を送り、target model と同じように振る舞う surrogate model f^\hat{f} を作る攻撃です。

minθ^  Exq(x)[D(fθ(x),f^θ^(x))]\min_{\hat{\theta}} \; \mathbb{E}_{x\sim q(x)}\left[D\left(f_\theta(x), \hat{f}_{\hat{\theta}}(x)\right) \right]

ここで DD は probability distribution や logit の差を測る distance です。API が confidence score を返す場合、label だけの場合より情報量が多く、extraction が容易になります。

Model extraction の目的

目的内容
Functionality stealing有料 API と同等の model を作る
Hyperparameter inferencemodel type や parameter を推定する
Attack stagingsurrogate model を使って transfer attack を作る
Security bypassspam / malware detector を模倣して回避例を探す

Membership inference

Membership inference は、ある record xx が training set に含まれていたかを推測する攻撃です。

A(x,fθ(x)){member,nonmember}\mathcal{A}(x, f_\theta(x)) \rightarrow \{\mathrm{member}, \mathrm{nonmember}\}

Training data に含まれていた sample では、model が高 confidence で正解しやすい場合があります。この train / non-train の出力分布の差を使います。

Shadow model attack

代表的な membership inference では、攻撃者が shadow model を複数訓練し、member と non-member の出力 pattern を学習する attack model を作ります。

Model inversion / training data leakage

Model inversion は、model の出力から training data の特徴や prototype を復元しようとする攻撃です。Generative model や LLM では、training data memorization によって、特定の prompt から training sequence が再現されることがあります。

防御

防御内容注意点
Limit confidence outputprobability ではなく label だけ返すlabel-only extraction も可能
Rate limitingquery 数を制限するdistributed attack に注意
Watermarkingstolen model を検出しやすくするadaptive attacker に注意
Differential privacytraining data leakage を抑えるutility trade-off がある
Regularization / calibrationoverfitting を減らすprivacy guarantee ではない
Monitoringquery pattern を監視するfalse positive と privacy の balance が必要

LLM API での注意

LLM では、logprob API、embedding API、fine-tuning API、batch query が extraction / privacy attack の surface になります。特に、model output が長く豊富であるため、単一 query から得られる情報量が大きいです。System prompt extraction、training data extraction、fine-tuning data inference も関連する脅威です。

関連ページ

主なソース