Skip to main content

Egocentric Video and Ego4D

Egocentric video は、ユーザーが頭部に装着した camera から見た 一人称視点 の video です。AR、wearable computing、robotics、embodied AI、human behavior analysis にとって、最も自然な視覚 modality です。

なぜ重要か

  • 人間が日常的に行う action や interaction を、人間視点から捉えられる
  • Robot が人間の動作から学習する (imitation learning) ための主要 modality
  • AR glasses の中心 input
  • Hand-object interaction、affordance 学習に直結

Ego4D

Ego4D は、Meta を中心としたコンソーシアムによる 大規模 egocentric video dataset です。世界各地の何千時間もの first-person video を収録し、複数の benchmark suite を含みます。

Benchmark内容
Episodic memory過去 video からの質問応答
Hands and objects手と物体の interaction
AV diarization発話者の分離
Social視線、interlocutor の同定
Forecasting未来 action 予測

Ego-Exo4D

後継の Ego-Exo4D は、ego (一人称) と exo (三人称) の同時撮影を集めた dataset で、skill learning、demonstration learning に向いた構造を持ちます。Robot の imitation learning や VLA model の学習に重要です。

第三者視点との違い

観点第三者視点一人称視点
Camera motion比較的安定激しい head motion
視点Scene 全体局所、interaction が中心
Object visibility全身が見える手と近傍 object が中心
ApplicationSurveillance / movieAR / robotics / embodied AI

関連ページ

主なソース