Poisoning and Backdoor Attacks
Poisoning attack は、training data や training pipeline を汚染して、学習後の model を攻撃者に都合よく変える training-time attack です。Backdoor attack は、clean input では正常に振る舞い、trigger が付いた input だけ target behavior を示すように model を仕込みます。
自作概念図。Poisoned data が training pipeline に入ると、clean input では普通に動き、trigger input では target output を返す backdoored model ができる場合があります。
Data poisoning
Poisoning は bi-level optimization として書けます。攻撃者は poisoned data を選び、その data で学習された parameter が validation / target loss を悪化させるようにします。
Poisoning の目的は二種類あります。
| 目的 | 内容 |
|---|---|
| Availability attack | 全体性能を落とす |
| Integrity attack | 特定 input / class だけ誤らせる |
Clean-label poisoning
Clean-label poisoning は、poisoned example の label を正しい label のままにする攻撃です。Label が不自然ではないため、人間や簡単な data validation で見つけにくいです。Feature collision や gradient matching を使い、target example が別 class に引き寄せられるように training set を操作します。
Backdoor attack
Backdoor attack では、trigger function と target label を定義します。Training objective は、clean accuracy を保ちながら trigger input を target label に向けます。
Backdoor model は次を満たすことを狙います。
Metrics
Backdoor の評価では、clean accuracy と attack success rate を両方見ます。
| Metric | 意味 |
|---|---|
| Clean Accuracy | trigger なし input で正常に分類できるか |
| Attack Success Rate | trigger あり input が target に分類される割合 |
| Stealthiness | trigger や poison が検出されにくいか |
| Persistence | fine-tuning や pruning 後も残るか |
Backdoor の種類
| 種類 | 内容 |
|---|---|
| Visible trigger | 小さな patch や sticker を貼る |
| Invisible trigger | 低振幅 noise、blending、frequency pattern |
| Semantic trigger | 特定 object、style、phrase が trigger になる |
| Clean-label backdoor | label を変えずに trigger を埋め込む |
| Model supply-chain Trojan | pretrained model 自体に backdoor がある |
防御と検出
- Data provenance と dataset audit
- Outlier / influence function による poison detection
- Neural Cleanse のような trigger reverse engineering
- Fine-pruning、pruning、fine-tuning による backdoor removal
- Activation clustering
- Model supply chain の署名、hash、reproducible training
LLM との関係
LLM でも poisoning / backdoor は重要です。Instruction tuning data、RLHF preference data、retrieval corpus、tool documentation に悪意ある pattern が混入すると、特定 trigger phrase や prompt に対して不正な behavior が出る可能性があります。RAG system では、training data ではなく index corpus の poisoning も現実的な脅威です。
関連ページ
- Threat Models and Notation
- LLM and Multimodal Adversarial Attacks
- Retrieval-Augmented Generation
- Adversarial Defenses
主なソース
- Poisoning Attacks against Support Vector Machines: https://arxiv.org/abs/1206.6389
- BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain: https://arxiv.org/abs/1708.06733
- Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning: https://arxiv.org/abs/1712.05526
- Clean-Label Backdoor Attacks: https://arxiv.org/abs/1902.11237
- Neural Cleanse: https://ieeexplore.ieee.org/document/8835365