Skip to main content

Universal and Physical Attacks

Universal attack は、多くの入力に共通して効く perturbation を探す攻撃です。Physical attack は、印刷、貼り紙、照明、camera angle など現実世界の変換を通っても model を誤らせる攻撃です。

Universal adversarial perturbation

通常の adversarial example は input ごとに perturbation δ(x)\delta(x) を作ります。Universal perturbation は、同じ perturbation vv が多くの input に効くことを狙います。

vpξ,PxD(f(x+v)f(x))1ρ\|v\|_p \le \xi, \quad \mathbb{P}_{x\sim\mathcal{D}}\left(f(x+v) \ne f(x)\right) \ge 1-\rho

ここで ξ\xi は perturbation budget、ρ\rho は許容 failure rate です。

Universal perturbation は、decision boundary が data manifold の近くに広く存在することを示唆します。

Adversarial patch

Adversarial patch は、画像全体に微小 noise を加えるのではなく、局所的な patch を貼る攻撃です。Patch は大きく目に見える場合がありますが、物理世界で実行しやすい点が重要です。

Patch pp、mask mm、変換 TT を使うと、patched image は次のように表せます。

x=(1m)x+mT(p)x' = (1-m)\odot x + m\odot T(p)

Targeted patch attack では、期待変換の下で target class tt の確率を上げます。

maxp  ExD,  TT[logPθ(t(1m)x+mT(p))]\max_p \; \mathbb{E}_{x\sim\mathcal{D},\; T\sim\mathcal{T}} \left[\log P_\theta(t \mid (1-m)\odot x + m\odot T(p))\right]

Expectation over Transformation

Physical world では、camera angle、distance、lighting、print quality、motion blur などの変換が入ります。Expectation over Transformation (EOT) は、これらの変換分布を training objective に入れます。

maxδ  ETT[(fθ(T(x+δ)),y)]\max_\delta \; \mathbb{E}_{T\sim\mathcal{T}}\left[ \ell(f_\theta(T(x+\delta)),y) \right]

これにより、特定の digital input だけでなく、現実世界の変換後にも残る perturbation を作ります。

Physical-world examples

対象攻撃例重要な変換
Image classifier印刷した adversarial imagecamera、照明、角度
Object detectoradversarial patch / stickerobject scale、occlusion、viewpoint
Traffic signsticker や posterdistance、motion blur、weather
Face recognitionadversarial eyeglasseshead pose、lighting
Robot / embodied AIadversarial texture / objectsensor fusion、control loop

Digital attack との違い

  • Perturbation が見える場合があります。
  • Sensor pipeline、compression、resizing、color correction を通る必要があります。
  • Attack success は single image ではなく、変換分布上の成功率で測ります。
  • Physical attack は safety / security impact が大きいため、responsible disclosure が重要です。

防御の観点

  • Data augmentation と physical transformation を含む adversarial training
  • Object detector の multi-view consistency check
  • Sensor fusion による単一 modality 依存の緩和
  • Human-in-the-loop と anomaly monitoring
  • Physical security、tamper detection

関連ページ

主なソース