Video Understanding Overview

Video Understanding は、video から action、event、interaction、temporal structure を理解する分野です。Action recognition、temporal localization、video question answering、video captioning、egocentric video analysis などを含みます。

大きな task

Task	内容
Action recognition	Video clip 全体の action class を予測
Temporal localization	時間軸上で action の開始 / 終了を当てる
Video QA / captioning	Video に対する自然言語応答 / 説明
Egocentric analysis	一人称視点 video の理解
Self-supervised video	ラベルなし video からの representation 学習

詳細ページ

ページ	内容
Video Transformers	TimeSformer、ViViT、VideoMAE
Video Self-Supervised Learning	VideoMAE、V-JEPA、MaskFeat
Egocentric Video and Ego4D	Ego4D、egocentric task suite

3D / 4D / World Model との接続

4D Reconstruction: video から dynamic 3D を作る
World Models: video から future を予測
V-JEPA: video からの representation learning
Embodied AI: egocentric video が学習データの中心

数式で見る video understanding task

Video understanding は、video $V=(I_1,\ldots,I_T)$ から label、event、action、caption、trajectory などを推定する問題です。分類なら次のように書けます。

p_\theta(y\mid V)=\mathrm{softmax}(f_\theta(I_{1:T}))

Temporal localization では、event の開始時刻と終了時刻 $(t_s,t_e)$ を推定します。

(\hat{t}_s,\hat{t}_e,\hat{y})=g_\theta(I_{1:T})

この式の気持ちは、「video 全体に一つの label を付けるだけでなく、いつ何が起きたかを時間軸上で特定する」ということです。

Video QA や captioning では、video feature と text prefix から次 token を予測します。

p_\theta(w_t\mid w_{<t},V)

したがって、video understanding では spatial recognition、temporal reasoning、language grounding が同時に必要になります。

主なソース

TimeSformer: https://arxiv.org/abs/2102.05095
VideoMAE: https://arxiv.org/abs/2203.12602
Ego4D: https://arxiv.org/abs/2110.07058
Kinetics: https://arxiv.org/abs/1705.06950

大きな task​

詳細ページ​

3D / 4D / World Model との接続​

数式で見る video understanding task​

関連ページ​

主なソース​

大きな task

詳細ページ

3D / 4D / World Model との接続

数式で見る video understanding task

関連ページ

主なソース