Skip to main content

Masked Image Modeling Overview

Masked Image Modeling (MIM) は、image の一部を mask し、残りから masked 部分を予測することで representation を学ぶ self-supervised learning です。BERT が language modeling で起こした変化を、image に持ち込んだ流れです。

基本 idea

予測対象として、

  • Raw pixel (MAE、SimMIM)
  • Discrete visual token (BEiT)
  • Feature / target embedding (data2vec、JEPA)

など、さまざまな選択肢があります。

代表的 method

Method予測対象特徴
MAEPixelEncoder は visible only、軽量 decoder
SimMIMPixelLight-weight prediction head
BEiTDiscrete visual tokendVAE codebook を target に
data2vecTarget featuresEMA teacher
MaskFeatHOG featureHand-crafted target

詳細ページ

ページ内容
MAEAsymmetric encoder-decoder、高い mask ratio
BEiTDiscrete visual token を target にした BERT-like

JEPA との対比

JEPA は、MIM と同じく context から masked target を予測しますが、target が pixel ではなく representation である点が異なります。MIM の自然な進化系として位置づけられます。

数式で見る masked reconstruction

Masked Image Modeling では、画像 patch の集合を {xi}i=1N\{x_i\}_{i=1}^{N} とし、その一部 M\mathcal{M} を mask します。Model は、見えている patch xMˉx_{\bar{\mathcal{M}}} から mask された patch を予測します。

minθiM(xi,x^i),x^i=fθ(xMˉ,i)\min_\theta \sum_{i\in\mathcal{M}} \ell\left(x_i,\hat{x}_i\right), \qquad \hat{x}_i=f_\theta(x_{\bar{\mathcal{M}}}, i)

MAE のように pixel を復元する場合、\ell は mean squared error になります。

MSE(xi,x^i)=xix^i22\ell_{\mathrm{MSE}}(x_i,\hat{x}_i)=\|x_i-\hat{x}_i\|_2^2

BEiT のように discrete visual token を予測する場合、\ell は cross-entropy になります。

CE(yi,p^i)=logp^i(yi)\ell_{\mathrm{CE}}(y_i,\hat{p}_i)=-\log \hat{p}_i(y_i)

この式の気持ちは、「隠された patch を当てるために、model が周囲の構造や object の意味を内部表現として持つようにする」というものです。

関連ページ

主なソース