3D Scene Understanding Overview

3D Scene Understanding は、3D Reconstruction が復元した geometry に、semantic、object、occupancy、affordance、language alignment を加えて「scene を理解する」分野です。Autonomous driving、robotics、AR、embodied AI で重要です。

何を理解するのか

要素	説明
BEV perception	Top-down view で object、lane、map、occupancy を表す。
3D occupancy	空間 cell が occupied / free / unknown かを推定する。
3D semantic segmentation	Point / voxel / mesh に class label を付ける。
Open-vocabulary 3D	Text query で任意概念を 3D scene から探す。
Point cloud representation	LiDAR や RGB-D の point cloud を foundation model 化する。

Reconstruction との違い

3D Reconstruction は「形」を復元します。3D Scene Understanding は、その形が「何で、どこにあり、どう使えるか」を理解します。

数式で見る 3D scene understanding の出力空間

3D scene understanding は、観測 $\mathcal{O}$ （image、video、point cloud、multi-view）から、何らかの 3D 表現上の予測 $\hat{Y}$ を行う問題として書けます。

\hat{Y}=F_\theta(\mathcal{O})

$\hat{Y}$ がどの空間にあるかによって、task が大きく分かれます。

出力空間	例
2D image plane	2D detection、2D semantic segmentation
BEV grid	BEV occupancy、HD map、motion forecasting
3D voxel grid	3D occupancy、semantic occupancy
3D point	LiDAR semantic segmentation、3D object detection
Mesh / surface	scene reconstruction、layout
Open-vocabulary feature field	CLIP feature を 3D に持ち上げた表現

評価指標もこの出力空間に対応して定義されます。たとえば voxel 単位の class IoU は次の通りです。

\mathrm{IoU}_c=\frac{TP_c}{TP_c+FP_c+FN_c}

mIoU はクラス平均です。

\mathrm{mIoU}=\frac{1}{|C|}\sum_{c\in C}\mathrm{IoU}_c

この式の気持ちは、「同じ scene understanding でも、出力が image 上か、BEV 上か、voxel 上か、point cloud 上かで評価方法と難しさが変わる」ということです。出力空間を意識して指標と loss を選ぶことが重要です。

何を理解するのか​

Reconstruction との違い​

数式で見る 3D scene understanding の出力空間​

関連ページ​

何を理解するのか

Reconstruction との違い

数式で見る 3D scene understanding の出力空間

関連ページ