Skip to main content

Video Self-Supervised Learning

Video Self-Supervised Learning は、ラベルなし video から強い representation を学ぶ枠組みです。Image での MAE、DINO、CLIP に相当する流れが video でも進んでいます。

代表的方向

方向代表例
Masked video modelingVideoMAE、MaskFeat、ST-MAE
Predictive (JEPA)V-JEPA、V-JEPA 2
ContrastiveTCN、CVRL
Generative pretrainingVideo diffusion、autoregressive video

VideoMAE

VideoMAE は、video の 時空間 tube を 90% 以上 mask し、残った tube から元 video を復元する MAE 系手法です。Video の高い redundancy のおかげで、強い mask ratio でも学習が成立します。

V-JEPA との対比

V-JEPA は、masked region の pixel ではなく representation を予測します。Video の本質的な意味構造を学ぶには、pixel 復元より representation 予測の方が向いている、という主張です。

Approach予測対象強み
VideoMAEPixel細部復元、生成 backbone 向き
V-JEPAFeatureSemantic / abstract、planning 向き
ContrastivePositive pairClass-level 表現

3D / 4D との接続

  • V-JEPA 2 は world model 化
  • VideoMAE は video generation model の backbone にもなる
  • 4D Reconstruction の motion prior として使える可能性

数式で見る temporal pretext task

Video self-supervised learning では、時間方向の構造を利用した pretext task がよく使われます。Contrastive な方法では、同じ video の異なる clip を positive、別 video の clip を negative として InfoNCE loss を使えます。

L=logexp(sim(zi,zi+)/τ)exp(sim(zi,zi+)/τ)+jexp(sim(zi,zj)/τ)\mathcal{L}=-\log \frac{\exp(\mathrm{sim}(z_i,z_i^+)/\tau)} {\exp(\mathrm{sim}(z_i,z_i^+)/\tau)+\sum_j\exp(\mathrm{sim}(z_i,z_j^-)/\tau)}

この式の気持ちは、「同じ動画から来た clip は意味的に近く、別動画から来た clip は離れるように表現を学ぶ」というものです。

Masked video modeling では、隠した tube または patch token を予測します。

LMVM=(t,p)M(x^t,p,xt,p)\mathcal{L}_{\mathrm{MVM}}=\sum_{(t,p)\in\mathcal{M}} \ell(\hat{x}_{t,p},x_{t,p})

ここで、M\mathcal{M} は mask された時空間 patch の集合です。時間方向に連続した tube を mask すると、model は object motion や temporal context を使って欠損部分を補う必要があります。

関連ページ

主なソース