Video Understanding Overview
Action recognition、video transformer、video self-supervised learning、egocentric vision を整理します。
Video Transformers
TimeSformer、ViViT、Video Swin、VideoMAE など video 用 transformer の流れを整理します。
Video Self-Supervised Learning
VideoMAE、MaskFeat、V-JEPA、CoTracker pretraining など video self-supervised の流れを整理します。
Egocentric Video and Ego4D
一人称視点 video と Ego4D / Ego-Exo4D dataset、embodied AI / robotics との関係を整理します。