Masked Image Modeling Overview
MAE、BEiT、SimMIM など masked image modeling の流れと、masked language modeling との関係を整理します。
MAE
Masked Autoencoder の asymmetric encoder-decoder、high mask ratio、scalable pretraining を整理します。
BEiT
dVAE token を target にする BEiT の BERT-style image pretraining を整理します。