Skip to main content

Video Understanding Overview

Video Understanding は、video から action、event、interaction、temporal structure を理解する分野です。Action recognition、temporal localization、video question answering、video captioning、egocentric video analysis などを含みます。

大きな task

Task内容
Action recognitionVideo clip 全体の action class を予測
Temporal localization時間軸上で action の開始 / 終了を当てる
Video QA / captioningVideo に対する自然言語応答 / 説明
Egocentric analysis一人称視点 video の理解
Self-supervised videoラベルなし video からの representation 学習

詳細ページ

ページ内容
Video TransformersTimeSformer、ViViT、VideoMAE
Video Self-Supervised LearningVideoMAE、V-JEPA、MaskFeat
Egocentric Video and Ego4DEgo4D、egocentric task suite

3D / 4D / World Model との接続

数式で見る video understanding task

Video understanding は、video V=(I1,,IT)V=(I_1,\ldots,I_T) から label、event、action、caption、trajectory などを推定する問題です。分類なら次のように書けます。

pθ(yV)=softmax(fθ(I1:T))p_\theta(y\mid V)=\mathrm{softmax}(f_\theta(I_{1:T}))

Temporal localization では、event の開始時刻と終了時刻 (ts,te)(t_s,t_e) を推定します。

(t^s,t^e,y^)=gθ(I1:T)(\hat{t}_s,\hat{t}_e,\hat{y})=g_\theta(I_{1:T})

この式の気持ちは、「video 全体に一つの label を付けるだけでなく、いつ何が起きたかを時間軸上で特定する」ということです。

Video QA や captioning では、video feature と text prefix から次 token を予測します。

pθ(wtw<t,V)p_\theta(w_t\mid w_{<t},V)

したがって、video understanding では spatial recognition、temporal reasoning、language grounding が同時に必要になります。

関連ページ

主なソース