Poisoning and Backdoor Attacks

Poisoning attack は、training data や training pipeline を汚染して、学習後の model を攻撃者に都合よく変える training-time attack です。Backdoor attack は、clean input では正常に振る舞い、trigger が付いた input だけ target behavior を示すように model を仕込みます。

Poisoning and backdoor flow

自作概念図。Poisoned data が training pipeline に入ると、clean input では普通に動き、trigger input では target output を返す backdoored model ができる場合があります。

Data poisoning

Poisoning は bi-level optimization として書けます。攻撃者は poisoned data $P$ を選び、その data で学習された parameter $\theta^*(P)$ が validation / target loss を悪化させるようにします。

\max_P \; \mathcal{L}_{\mathrm{attack}}(\theta^*(P))

\theta^*(P) \in \arg\min_\theta \mathcal{L}_{\mathrm{train}}(D_{\mathrm{clean}}\cup P;\theta)

Poisoning の目的は二種類あります。

目的	内容
Availability attack	全体性能を落とす
Integrity attack	特定 input / class だけ誤らせる

Clean-label poisoning

Clean-label poisoning は、poisoned example の label を正しい label のままにする攻撃です。Label が不自然ではないため、人間や簡単な data validation で見つけにくいです。Feature collision や gradient matching を使い、target example が別 class に引き寄せられるように training set を操作します。

Backdoor attack

Backdoor attack では、trigger function $T$ と target label $y_t$ を定義します。Training objective は、clean accuracy を保ちながら trigger input を target label に向けます。

\min_\theta \sum_{(x,y)\in D}\ell(f_\theta(x),y) + \lambda \sum_{(x,y)\in P}\ell(f_\theta(T(x)),y_t)

Backdoor model は次を満たすことを狙います。

f_\theta(x) \approx y, \quad f_\theta(T(x)) = y_t

Metrics

Backdoor の評価では、clean accuracy と attack success rate を両方見ます。

\mathrm{ASR}=\frac{1}{n}\sum_{i=1}^{n}\mathbf{1}[f_\theta(T(x_i))=y_t]

Metric	意味
Clean Accuracy	trigger なし input で正常に分類できるか
Attack Success Rate	trigger あり input が target に分類される割合
Stealthiness	trigger や poison が検出されにくいか
Persistence	fine-tuning や pruning 後も残るか

Backdoor の種類

種類	内容
Visible trigger	小さな patch や sticker を貼る
Invisible trigger	低振幅 noise、blending、frequency pattern
Semantic trigger	特定 object、style、phrase が trigger になる
Clean-label backdoor	label を変えずに trigger を埋め込む
Model supply-chain Trojan	pretrained model 自体に backdoor がある

防御と検出

Data provenance と dataset audit
Outlier / influence function による poison detection
Neural Cleanse のような trigger reverse engineering
Fine-pruning、pruning、fine-tuning による backdoor removal
Activation clustering
Model supply chain の署名、hash、reproducible training

LLM との関係

LLM でも poisoning / backdoor は重要です。Instruction tuning data、RLHF preference data、retrieval corpus、tool documentation に悪意ある pattern が混入すると、特定 trigger phrase や prompt に対して不正な behavior が出る可能性があります。RAG system では、training data ではなく index corpus の poisoning も現実的な脅威です。

主なソース

Poisoning Attacks against Support Vector Machines: https://arxiv.org/abs/1206.6389
BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain: https://arxiv.org/abs/1708.06733
Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning: https://arxiv.org/abs/1712.05526
Clean-Label Backdoor Attacks: https://arxiv.org/abs/1902.11237
Neural Cleanse: https://ieeexplore.ieee.org/document/8835365

Data poisoning​

Clean-label poisoning​

Backdoor attack​

Metrics​

Backdoor の種類​

防御と検出​

LLM との関係​

関連ページ​

主なソース​