Pose Estimation Overview
Pose Estimation は、image、video、RGB-D、LiDAR、CAD model などから、対象の位置と姿勢を推定する task です。人間、物体、camera のどれを対象にするかで、問題設定が大きく変わります。
自作概念図。Pose estimation は human pose、object pose、camera pose に大きく分かれます。
Pose の種類
| 種類 | 推定対象 | 出力 |
|---|---|---|
| Human pose | 人間の関節や骨格 | 2D keypoints、3D keypoints、mesh、SMPL parameters |
| Whole-body pose | Body + hands + face | 全身・手・顔の keypoints / mesh |
| Object pose | Rigid object | 6D pose |
| Camera pose | Camera 自身 | Camera extrinsics、trajectory |
| Relative pose | 2 view 間の相対姿勢 | Essential matrix、relative rotation / translation |
2D と 3D
2D pose は image plane 上の keypoint を推定します。3D pose は camera coordinate または world coordinate 上の keypoint / mesh を推定します。
3D pose は、単眼では depth ambiguity を含むため、temporal prior、body prior、multi-view information、depth sensor などが重要になります。
Top conference でよく出る流れ
近年の pose estimation では、次の方向がよく話題になります。
- Large-scale pose foundation model
- Whole-body pose estimation
- 3D human mesh recovery
- 6D object pose の category-level / model-free 化
- Video pose tracking
- Pose と diffusion / world model / embodied AI の接続
数式で見る pose estimation の共通形
Pose estimation は、観測 から pose parameter を推定する問題として書けます。
ここで、 は pose parameter から得られる keypoint、mesh、camera projection などの予測です。この式の気持ちは、「骨格や object pose などの内部 parameter を動かし、観測された画像上の手がかりに最も合う状態を探す」というものです。
2D keypoint、3D keypoint、SMPL body、6D object pose は表現こそ異なりますが、多くの場合は「観測との誤差」と「pose として自然であるための prior」を合わせた objective になります。
観測項は画像との整合性を表し、prior 項は関節角度や shape が不自然になりすぎないようにします。