Video Understanding Overview
Video Understanding は、video から action、event、interaction、temporal structure を理解する分野です。Action recognition、temporal localization、video question answering、video captioning、egocentric video analysis などを含みます。
大きな task
| Task | 内容 |
|---|---|
| Action recognition | Video clip 全体の action class を予測 |
| Temporal localization | 時間軸上で action の開始 / 終了を当てる |
| Video QA / captioning | Video に対する自然言語応答 / 説明 |
| Egocentric analysis | 一人称視点 video の理解 |
| Self-supervised video | ラベルなし video からの representation 学習 |
詳細ページ
| ページ | 内容 |
|---|---|
| Video Transformers | TimeSformer、ViViT、VideoMAE |
| Video Self-Supervised Learning | VideoMAE、V-JEPA、MaskFeat |
| Egocentric Video and Ego4D | Ego4D、egocentric task suite |
3D / 4D / World Model との接続
- 4D Reconstruction: video から dynamic 3D を作る
- World Models: video から future を予測
- V-JEPA: video からの representation learning
- Embodied AI: egocentric video が学習データの中心
数式で見る video understanding task
Video understanding は、video から label、event、action、caption、trajectory などを推定する問題です。分類なら次のように書けます。
Temporal localization では、event の開始時刻と終了時刻 を推定します。
この式の気持ちは、「video 全体に一つの label を付けるだけでなく、いつ何が起きたかを時間軸上で特定する」ということです。
Video QA や captioning では、video feature と text prefix から次 token を予測します。
したがって、video understanding では spatial recognition、temporal reasoning、language grounding が同時に必要になります。
関連ページ
主なソース
- TimeSformer: https://arxiv.org/abs/2102.05095
- VideoMAE: https://arxiv.org/abs/2203.12602
- Ego4D: https://arxiv.org/abs/2110.07058
- Kinetics: https://arxiv.org/abs/1705.06950