Video Understanding | Haruk1y Wiki

📄️Video Understanding Overview

Action recognition、video transformer、video self-supervised learning、egocentric vision を整理します。

TimeSformer、ViViT、Video Swin、VideoMAE など video 用 transformer の流れを整理します。

VideoMAE、MaskFeat、V-JEPA、CoTracker pretraining など video self-supervised の流れを整理します。

一人称視点 video と Ego4D / Ego-Exo4D dataset、embodied AI / robotics との関係を整理します。