Masked Image Modeling Overview

Masked Image Modeling (MIM) は、image の一部を mask し、残りから masked 部分を予測することで representation を学ぶ self-supervised learning です。BERT が language modeling で起こした変化を、image に持ち込んだ流れです。

基本 idea

予測対象として、

Raw pixel (MAE、SimMIM)
Discrete visual token (BEiT)
Feature / target embedding (data2vec、JEPA)

など、さまざまな選択肢があります。

代表的 method

Method	予測対象	特徴
MAE	Pixel	Encoder は visible only、軽量 decoder
SimMIM	Pixel	Light-weight prediction head
BEiT	Discrete visual token	dVAE codebook を target に
data2vec	Target features	EMA teacher
MaskFeat	HOG feature	Hand-crafted target

詳細ページ

ページ	内容
MAE	Asymmetric encoder-decoder、高い mask ratio
BEiT	Discrete visual token を target にした BERT-like

JEPA との対比

JEPA は、MIM と同じく context から masked target を予測しますが、target が pixel ではなく representation である点が異なります。MIM の自然な進化系として位置づけられます。

数式で見る masked reconstruction

Masked Image Modeling では、画像 patch の集合を $\{x_i\}_{i=1}^{N}$ とし、その一部 $\mathcal{M}$ を mask します。Model は、見えている patch $x_{\bar{\mathcal{M}}}$ から mask された patch を予測します。

\min_\theta \sum_{i\in\mathcal{M}} \ell\left(x_i,\hat{x}_i\right), \qquad \hat{x}_i=f_\theta(x_{\bar{\mathcal{M}}}, i)

MAE のように pixel を復元する場合、 $\ell$ は mean squared error になります。

\ell_{\mathrm{MSE}}(x_i,\hat{x}_i)=\|x_i-\hat{x}_i\|_2^2

BEiT のように discrete visual token を予測する場合、 $\ell$ は cross-entropy になります。

\ell_{\mathrm{CE}}(y_i,\hat{p}_i)=-\log \hat{p}_i(y_i)

この式の気持ちは、「隠された patch を当てるために、model が周囲の構造や object の意味を内部表現として持つようにする」というものです。

主なソース

MAE: https://arxiv.org/abs/2111.06377
BEiT: https://arxiv.org/abs/2106.08254
SimMIM: https://arxiv.org/abs/2111.09886
data2vec: https://arxiv.org/abs/2202.03555
Survey: A Survey on Masked Autoencoders: https://arxiv.org/abs/2208.00173

基本 idea​

代表的 method​

詳細ページ​

JEPA との対比​

数式で見る masked reconstruction​

関連ページ​

主なソース​