Video Self-Supervised Learning

Video Self-Supervised Learning は、ラベルなし video から強い representation を学ぶ枠組みです。Image での MAE、DINO、CLIP に相当する流れが video でも進んでいます。

代表的方向

方向	代表例
Masked video modeling	VideoMAE、MaskFeat、ST-MAE
Predictive (JEPA)	V-JEPA、V-JEPA 2
Contrastive	TCN、CVRL
Generative pretraining	Video diffusion、autoregressive video

VideoMAE

VideoMAE は、video の 時空間 tube を 90% 以上 mask し、残った tube から元 video を復元する MAE 系手法です。Video の高い redundancy のおかげで、強い mask ratio でも学習が成立します。

V-JEPA との対比

V-JEPA は、masked region の pixel ではなく representation を予測します。Video の本質的な意味構造を学ぶには、pixel 復元より representation 予測の方が向いている、という主張です。

Approach	予測対象	強み
VideoMAE	Pixel	細部復元、生成 backbone 向き
V-JEPA	Feature	Semantic / abstract、planning 向き
Contrastive	Positive pair	Class-level 表現

3D / 4D との接続

V-JEPA 2 は world model 化
VideoMAE は video generation model の backbone にもなる
4D Reconstruction の motion prior として使える可能性

数式で見る temporal pretext task

Video self-supervised learning では、時間方向の構造を利用した pretext task がよく使われます。Contrastive な方法では、同じ video の異なる clip を positive、別 video の clip を negative として InfoNCE loss を使えます。

\mathcal{L}=-\log \frac{\exp(\mathrm{sim}(z_i,z_i^+)/\tau)} {\exp(\mathrm{sim}(z_i,z_i^+)/\tau)+\sum_j\exp(\mathrm{sim}(z_i,z_j^-)/\tau)}

この式の気持ちは、「同じ動画から来た clip は意味的に近く、別動画から来た clip は離れるように表現を学ぶ」というものです。

Masked video modeling では、隠した tube または patch token を予測します。

\mathcal{L}_{\mathrm{MVM}}=\sum_{(t,p)\in\mathcal{M}} \ell(\hat{x}_{t,p},x_{t,p})

ここで、 $\mathcal{M}$ は mask された時空間 patch の集合です。時間方向に連続した tube を mask すると、model は object motion や temporal context を使って欠損部分を補う必要があります。

Video Self-Supervised Learning

代表的方向

VideoMAE

V-JEPA との対比

3D / 4D との接続

数式で見る temporal pretext task

関連ページ

主なソース

代表的方向​

VideoMAE​

V-JEPA との対比​

3D / 4D との接続​

数式で見る temporal pretext task​

関連ページ​

主なソース​

代表的方向

VideoMAE

V-JEPA との対比

3D / 4D との接続

数式で見る temporal pretext task

関連ページ

主なソース