Skip to main content

3D Scene Understanding Overview

3D Scene Understanding は、3D Reconstruction が復元した geometry に、semantic、object、occupancy、affordance、language alignment を加えて「scene を理解する」分野です。Autonomous driving、robotics、AR、embodied AI で重要です。

何を理解するのか

要素説明
BEV perceptionTop-down view で object、lane、map、occupancy を表す。
3D occupancy空間 cell が occupied / free / unknown かを推定する。
3D semantic segmentationPoint / voxel / mesh に class label を付ける。
Open-vocabulary 3DText query で任意概念を 3D scene から探す。
Point cloud representationLiDAR や RGB-D の point cloud を foundation model 化する。

Reconstruction との違い

3D Reconstruction は「形」を復元します。3D Scene Understanding は、その形が「何で、どこにあり、どう使えるか」を理解します。

数式で見る 3D scene understanding の出力空間

3D scene understanding は、観測 O\mathcal{O}(image、video、point cloud、multi-view)から、何らかの 3D 表現上の予測 Y^\hat{Y} を行う問題として書けます。

Y^=Fθ(O)\hat{Y}=F_\theta(\mathcal{O})

Y^\hat{Y} がどの空間にあるかによって、task が大きく分かれます。

出力空間
2D image plane2D detection、2D semantic segmentation
BEV gridBEV occupancy、HD map、motion forecasting
3D voxel grid3D occupancy、semantic occupancy
3D pointLiDAR semantic segmentation、3D object detection
Mesh / surfacescene reconstruction、layout
Open-vocabulary feature fieldCLIP feature を 3D に持ち上げた表現

評価指標もこの出力空間に対応して定義されます。たとえば voxel 単位の class IoU は次の通りです。

IoUc=TPcTPc+FPc+FNc\mathrm{IoU}_c=\frac{TP_c}{TP_c+FP_c+FN_c}

mIoU はクラス平均です。

mIoU=1CcCIoUc\mathrm{mIoU}=\frac{1}{|C|}\sum_{c\in C}\mathrm{IoU}_c

この式の気持ちは、「同じ scene understanding でも、出力が image 上か、BEV 上か、voxel 上か、point cloud 上かで評価方法と難しさが変わる」ということです。出力空間を意識して指標と loss を選ぶことが重要です。

関連ページ