3D Scene Understanding Overview
3D Scene Understanding は、3D Reconstruction が復元した geometry に、semantic、object、occupancy、affordance、language alignment を加えて「scene を理解する」分野です。Autonomous driving、robotics、AR、embodied AI で重要です。
何を理解するのか
| 要素 | 説明 |
|---|---|
| BEV perception | Top-down view で object、lane、map、occupancy を表す。 |
| 3D occupancy | 空間 cell が occupied / free / unknown かを推定する。 |
| 3D semantic segmentation | Point / voxel / mesh に class label を付ける。 |
| Open-vocabulary 3D | Text query で任意概念を 3D scene から探す。 |
| Point cloud representation | LiDAR や RGB-D の point cloud を foundation model 化する。 |
Reconstruction との違い
3D Reconstruction は「形」を復元します。3D Scene Understanding は、その形が「何で、どこにあり、どう使えるか」を理解します。
数式で見る 3D scene understanding の出力空間
3D scene understanding は、観測 (image、video、point cloud、multi-view)から、何らかの 3D 表現上の予測 を行う問題として書けます。
がどの空間にあるかによって、task が大きく分かれます。
| 出力空間 | 例 |
|---|---|
| 2D image plane | 2D detection、2D semantic segmentation |
| BEV grid | BEV occupancy、HD map、motion forecasting |
| 3D voxel grid | 3D occupancy、semantic occupancy |
| 3D point | LiDAR semantic segmentation、3D object detection |
| Mesh / surface | scene reconstruction、layout |
| Open-vocabulary feature field | CLIP feature を 3D に持ち上げた表現 |
評価指標もこの出力空間に対応して定義されます。たとえば voxel 単位の class IoU は次の通りです。
mIoU はクラス平均です。
この式の気持ちは、「同じ scene understanding でも、出力が image 上か、BEV 上か、voxel 上か、point cloud 上かで評価方法と難しさが変わる」ということです。出力空間を意識して指標と loss を選ぶことが重要です。