Egocentric Video and Ego4D
Egocentric video は、ユーザーが頭部に装着した camera から見た 一人称視点 の video です。AR、wearable computing、robotics、embodied AI、human behavior analysis にとって、最も自然な視覚 modality です。
なぜ重要か
- 人間が日常的に行う action や interaction を、人間視点から捉えられる
- Robot が人間の動作から学習する (imitation learning) ための主要 modality
- AR glasses の中心 input
- Hand-object interaction、affordance 学習に直結
Ego4D
Ego4D は、Meta を中心としたコンソーシアムによる 大規模 egocentric video dataset です。世界各地の何千時間もの first-person video を収録し、複数の benchmark suite を含みます。
| Benchmark | 内容 |
|---|---|
| Episodic memory | 過去 video からの質問応答 |
| Hands and objects | 手と物体の interaction |
| AV diarization | 発話者の分離 |
| Social | 視線、interlocutor の同定 |
| Forecasting | 未来 action 予測 |
Ego-Exo4D
後継の Ego-Exo4D は、ego (一人称) と exo (三人称) の同時撮影を集めた dataset で、skill learning、demonstration learning に向いた構造を持ちます。Robot の imitation learning や VLA model の学習に重要です。
第三者視点との違い
| 観点 | 第三者視点 | 一人称視点 |
|---|---|---|
| Camera motion | 比較的安定 | 激しい head motion |
| 視点 | Scene 全体 | 局所、interaction が中心 |
| Object visibility | 全身が見える | 手と近傍 object が中心 |
| Application | Surveillance / movie | AR / robotics / embodied AI |
関連ページ
主なソース
- Ego4D: https://arxiv.org/abs/2110.07058
- Ego4D project page: https://ego4d-data.org/
- Ego-Exo4D: https://arxiv.org/abs/2311.18259