Pose Estimation Overview

Pose Estimation は、image、video、RGB-D、LiDAR、CAD model などから、対象の位置と姿勢を推定する task です。人間、物体、camera のどれを対象にするかで、問題設定が大きく変わります。

Pose estimation taxonomy

自作概念図。Pose estimation は human pose、object pose、camera pose に大きく分かれます。

Pose の種類

種類	推定対象	出力
Human pose	人間の関節や骨格	2D keypoints、3D keypoints、mesh、SMPL parameters
Whole-body pose	Body + hands + face	全身・手・顔の keypoints / mesh
Object pose	Rigid object	6D pose $(\mathbf{R}, \mathbf{t})$
Camera pose	Camera 自身	Camera extrinsics、trajectory
Relative pose	2 view 間の相対姿勢	Essential matrix、relative rotation / translation

2D と 3D

2D pose は image plane 上の keypoint を推定します。3D pose は camera coordinate または world coordinate 上の keypoint / mesh を推定します。

3D pose は、単眼では depth ambiguity を含むため、temporal prior、body prior、multi-view information、depth sensor などが重要になります。

Top conference でよく出る流れ

近年の pose estimation では、次の方向がよく話題になります。

Large-scale pose foundation model
Whole-body pose estimation
3D human mesh recovery
6D object pose の category-level / model-free 化
Video pose tracking
Pose と diffusion / world model / embodied AI の接続

数式で見る pose estimation の共通形

Pose estimation は、観測 $\mathcal{O}$ から pose parameter $\boldsymbol{\theta}$ を推定する問題として書けます。

\hat{\boldsymbol{\theta}}=\arg\min_{\boldsymbol{\theta}}\mathcal{L}(F(\boldsymbol{\theta}),\mathcal{O})

ここで、 $F(\boldsymbol{\theta})$ は pose parameter から得られる keypoint、mesh、camera projection などの予測です。この式の気持ちは、「骨格や object pose などの内部 parameter を動かし、観測された画像上の手がかりに最も合う状態を探す」というものです。

2D keypoint、3D keypoint、SMPL body、6D object pose は表現こそ異なりますが、多くの場合は「観測との誤差」と「pose として自然であるための prior」を合わせた objective になります。

\mathcal{L}=\mathcal{L}_{\mathrm{obs}}+ \lambda\mathcal{L}_{\mathrm{prior}}

観測項は画像との整合性を表し、prior 項は関節角度や shape が不自然になりすぎないようにします。

Pose の種類​

2D と 3D​

Top conference でよく出る流れ​

数式で見る pose estimation の共通形​

関連ページ​

Pose の種類

2D と 3D

Top conference でよく出る流れ

数式で見る pose estimation の共通形

関連ページ