Video Self-Supervised Learning
Video Self-Supervised Learning は、ラベルなし video から強い representation を学ぶ枠組みです。Image での MAE、DINO、CLIP に相当する流れが video でも進んでいます。
代表的方向
| 方向 | 代表例 |
|---|---|
| Masked video modeling | VideoMAE、MaskFeat、ST-MAE |
| Predictive (JEPA) | V-JEPA、V-JEPA 2 |
| Contrastive | TCN、CVRL |
| Generative pretraining | Video diffusion、autoregressive video |
VideoMAE
VideoMAE は、video の 時空間 tube を 90% 以上 mask し、残った tube から元 video を復元する MAE 系手法です。Video の高い redundancy のおかげで、強い mask ratio でも学習が成立します。
V-JEPA との対比
V-JEPA は、masked region の pixel ではなく representation を予測します。Video の本質的な意味構造を学ぶには、pixel 復元より representation 予測の方が向いている、という主張です。
| Approach | 予測対象 | 強み |
|---|---|---|
| VideoMAE | Pixel | 細部復元、生成 backbone 向き |
| V-JEPA | Feature | Semantic / abstract、planning 向き |
| Contrastive | Positive pair | Class-level 表現 |
3D / 4D との接続
- V-JEPA 2 は world model 化
- VideoMAE は video generation model の backbone にもなる
- 4D Reconstruction の motion prior として使える可能性
数式で見る temporal pretext task
Video self-supervised learning では、時間方向の構造を利用した pretext task がよく使われます。Contrastive な方法では、同じ video の異なる clip を positive、別 video の clip を negative として InfoNCE loss を使えます。
この式の気持ちは、「同じ動画から来た clip は意味的に近く、別動画から来た clip は離れるように表現を学ぶ」というものです。
Masked video modeling では、隠した tube または patch token を予測します。
ここで、 は mask された時空間 patch の集合です。時間方向に連続した tube を mask すると、model は object motion や temporal context を使って欠損部分を補う必要があります。