Masked Image Modeling Overview
Masked Image Modeling (MIM) は、image の一部を mask し、残りから masked 部分を予測することで representation を学ぶ self-supervised learning です。BERT が language modeling で起こした変化を、image に持ち込んだ流れです。
基本 idea
予測対象として、
- Raw pixel (MAE、SimMIM)
- Discrete visual token (BEiT)
- Feature / target embedding (data2vec、JEPA)
など、さまざまな選択肢があります。
代表的 method
| Method | 予測対象 | 特徴 |
|---|---|---|
| MAE | Pixel | Encoder は visible only、軽量 decoder |
| SimMIM | Pixel | Light-weight prediction head |
| BEiT | Discrete visual token | dVAE codebook を target に |
| data2vec | Target features | EMA teacher |
| MaskFeat | HOG feature | Hand-crafted target |
詳細ページ
| ページ | 内容 |
|---|---|
| MAE | Asymmetric encoder-decoder、高い mask ratio |
| BEiT | Discrete visual token を target にした BERT-like |
JEPA との対比
JEPA は、MIM と同じく context から masked target を予測しますが、target が pixel ではなく representation である点が異なります。MIM の自然な進化系として位置づけられます。
数式で見る masked reconstruction
Masked Image Modeling では、画像 patch の集合を とし、その一部 を mask します。Model は、見えている patch から mask された patch を予測します。
MAE のように pixel を復元する場合、 は mean squared error になります。
BEiT のように discrete visual token を予測する場合、 は cross-entropy になります。
この式の気持ちは、「隠された patch を当てるために、model が周囲の構造や object の意味を内部表現として持つようにする」というものです。
関連ページ
- Self-Supervised Learning Overview
- JEPA Overview
- Contrastive Learning Overview
- Video Self-Supervised Learning
主なソース
- MAE: https://arxiv.org/abs/2111.06377
- BEiT: https://arxiv.org/abs/2106.08254
- SimMIM: https://arxiv.org/abs/2111.09886
- data2vec: https://arxiv.org/abs/2202.03555
- Survey: A Survey on Masked Autoencoders: https://arxiv.org/abs/2208.00173