Datasets and Metrics for 3D Reconstruction
3D Reconstruction の評価では、task ごとに dataset と metric が異なります。Camera pose、depth、surface、optical flow、semantic label など、評価対象を明確にする必要があります。
Camera pose / SLAM
| Dataset | 特徴 |
|---|---|
| TUM RGB-D | Indoor RGB-D SLAM の代表的 dataset です。 |
| KITTI Odometry | Outdoor driving scene の visual odometry / SLAM benchmark です。 |
| EuRoC MAV | Visual-inertial SLAM 向けの MAV dataset です。 |
代表的な metric には、Absolute Trajectory Error(ATE)と Relative Pose Error(RPE)があります。
Depth estimation
| Dataset | 特徴 |
|---|---|
| NYU Depth v2 | Indoor RGB-D depth estimation でよく使われます。 |
| KITTI Depth | Outdoor driving scene の depth estimation benchmark です。 |
| ETH3D | Multi-view stereo と stereo matching の評価に使われます。 |
Depth estimation では、AbsRel、RMSE、scale-invariant error、threshold accuracy などが使われます。
Optical flow
| Dataset | 特徴 |
|---|---|
| Middlebury Optical Flow | 古典的な optical flow benchmark です。 |
| Sintel | Animated movie ベースの challenging な optical flow dataset です。 |
| KITTI Flow | Driving scene の optical flow benchmark です。 |
| FlyingThings3D / Scene Flow datasets | Synthetic な optical flow、disparity、scene flow の large-scale dataset です。 |
代表的な metric は End-Point Error(EPE)です。Stereo matching では disparity EPE や bad pixel rate、scene flow では 3D endpoint error も使われます。
Multi-view stereo / surface reconstruction
| Dataset | 特徴 |
|---|---|
| DTU | Controlled environment の multi-view stereo benchmark です。 |
| Tanks and Temples | Real-world scale の MVS benchmark です。 |
| ETH3D | High-resolution image による MVS / SfM benchmark です。 |
Surface reconstruction では、accuracy、completeness、F-score などが使われます。
Segmentation
| Dataset | 特徴 |
|---|---|
| COCO | Instance segmentation の代表的 dataset です。 |
| Cityscapes | Urban scene の semantic segmentation dataset です。 |
| ScanNet | Indoor RGB-D scan と 3D semantic label を含みます。 |
Segmentation では、mIoU、AP、PQ(panoptic quality)などが使われます。
評価時の注意
- Monocular depth では scale alignment の有無を明示する必要があります。
- SLAM では、alignment 後の trajectory error と absolute scale の扱いを区別する必要があります。
- Surface reconstruction では、評価対象の crop、visibility、sampling density によって結果が変わります。
- Dynamic scene では、static background と moving object を分けて評価することがあります。
関連ページ
主なソース
- TUM RGB-D dataset: https://cvg.cit.tum.de/data/datasets/rgbd-dataset
- KITTI benchmark: https://www.cvlibs.net/datasets/kitti/
- EuRoC MAV dataset: https://projects.asl.ethz.ch/datasets/doku.php?id=kmavvisualinertialdatasets
- Middlebury Optical Flow: https://vision.middlebury.edu/flow/
- DTU MVS dataset: https://roboimagedata.compute.dtu.dk/?page_id=36
- Tanks and Temples: https://www.tanksandtemples.org/
- ScanNet: http://www.scan-net.org/