Skip to main content

Pose Estimation Overview

Pose Estimation は、image、video、RGB-D、LiDAR、CAD model などから、対象の位置と姿勢を推定する task です。人間、物体、camera のどれを対象にするかで、問題設定が大きく変わります。

Pose estimation taxonomy

自作概念図。Pose estimation は human pose、object pose、camera pose に大きく分かれます。

Pose の種類

種類推定対象出力
Human pose人間の関節や骨格2D keypoints、3D keypoints、mesh、SMPL parameters
Whole-body poseBody + hands + face全身・手・顔の keypoints / mesh
Object poseRigid object6D pose (R,t)(\mathbf{R}, \mathbf{t})
Camera poseCamera 自身Camera extrinsics、trajectory
Relative pose2 view 間の相対姿勢Essential matrix、relative rotation / translation

2D と 3D

2D pose は image plane 上の keypoint を推定します。3D pose は camera coordinate または world coordinate 上の keypoint / mesh を推定します。

3D pose は、単眼では depth ambiguity を含むため、temporal prior、body prior、multi-view information、depth sensor などが重要になります。

Top conference でよく出る流れ

近年の pose estimation では、次の方向がよく話題になります。

  • Large-scale pose foundation model
  • Whole-body pose estimation
  • 3D human mesh recovery
  • 6D object pose の category-level / model-free 化
  • Video pose tracking
  • Pose と diffusion / world model / embodied AI の接続

数式で見る pose estimation の共通形

Pose estimation は、観測 O\mathcal{O} から pose parameter θ\boldsymbol{\theta} を推定する問題として書けます。

θ^=argminθL(F(θ),O)\hat{\boldsymbol{\theta}}=\arg\min_{\boldsymbol{\theta}}\mathcal{L}(F(\boldsymbol{\theta}),\mathcal{O})

ここで、F(θ)F(\boldsymbol{\theta}) は pose parameter から得られる keypoint、mesh、camera projection などの予測です。この式の気持ちは、「骨格や object pose などの内部 parameter を動かし、観測された画像上の手がかりに最も合う状態を探す」というものです。

2D keypoint、3D keypoint、SMPL body、6D object pose は表現こそ異なりますが、多くの場合は「観測との誤差」と「pose として自然であるための prior」を合わせた objective になります。

L=Lobs+λLprior\mathcal{L}=\mathcal{L}_{\mathrm{obs}}+ \lambda\mathcal{L}_{\mathrm{prior}}

観測項は画像との整合性を表し、prior 項は関節角度や shape が不自然になりすぎないようにします。

関連ページ